|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
聪明的你,显然已经逐渐的开悟了,慢慢的理解了编程的概念,那么祝贺你,你已经迈出了成功的第一步。中文 甚么是中文分词?
尽人皆知,英文是以词为单元的,词和词之间是靠空格离隔,而中文是以字为单元,句子中一切的字连起来才干描写一个意思。例如,英词句子I am a student,用中文则为:“我是一个先生”。盘算机可以很复杂经由过程空格晓得student是一个单词,然而不克不及很轻易分明“学”、“生”两个字合起来才暗示一个词。把中文的汉字序列切分红成心义的词,就是中文分词,有些人也称为切词。我是一个先生,分词的了局是:我是 一个 先生。
今朝主流的中文分词算法有:
1、 基于字符串婚配的分词办法
这类办法又叫做机械分词办法,它是依照必定的战略将待剖析的汉字串与一个“充实大的”机械辞书中的词条停止配,若在辞书中找到某个字符串,则婚配胜利(辨认出一个词)。依照扫描偏向的分歧,串婚配分词办法可以分为正向婚配和逆向婚配;依照分歧长度优先婚配的情形,可以分为最大(最长)婚配和最小(最短)婚配;依照是不是与词性标注进程相联合,又可以分为纯真分词办法和分词与标注相联合的一体化办法。经常使用的几种机械分词办法以下:
1)正向最大婚配法(由左到右的偏向);
2)逆向最大婚配法(由右到左的偏向);
3)起码切分(使每句中切出的词数最小)。
还可以将上述各类办法互相组合,例如,可以将正向最大婚配办法和逆向最大婚配办法联合起来组成双向婚配法。因为汉语单字成词的特色,正向最小婚配和逆向最小婚配普通很少利用。普通说来,逆向婚配的切分精度略高于正向婚配,碰到的歧义景象也较少。统计了局标明,纯真利用正向最大婚配的毛病率为1/169,纯真利用逆向最大婚配的毛病率为1/245。但这类精度还远远不克不及知足实践的需求。实践利用的分词体系,都是把机械分词作为一种初分别段,还需经由过程使用各类其它的言语信息来进一步进步切分的正确率。
一种办法是改善扫描体例,称为特点扫描或标记切分,优先在待剖析字符串中辨认和切分出一些带有分明特点的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而削减婚配的毛病率。另外一种办法是将分词和词类标注联合起来,使用丰厚的词类信息对分词决议计划供应匡助,而且在标注过程当中又反过去对分词了局停止查验、调剂,从而极大地进步切分的正确率。
关于机械分词办法,可以创立一个普通的模子,在这方面有专业的学术论文,这里不做具体论说。
2、 基于了解的分词办法
这类分词办法是经由过程让盘算机摹拟人对句子的了解,到达辨认词的后果。其根基思惟就是在分词的同时停止句法、语义剖析,使用句法信息和语义信息来处置歧义景象。它凡是包含三个局部:分词子体系、句法语义子体系、总控局部。在总控局部的调和下,分词子体系可以取得有关词、句子等的句法和语义信息来对分词歧义停止判别,即它摹拟了人对句子的了解进程。这类分词办法需求利用大批的言语常识和信息。因为汉语言语常识的笼统、庞杂性,难以将各类言语信息组织成机械可直接读取的模式,因而今朝基于了解的分词体系还处在实验阶段。
3、 基于统计的分词办法
从模式上看,词是不乱的字的组合,因而在高低文中,相邻的字同时呈现的次数越多,就越有能够组成一个词。因而字与字相邻共现的频率或几率可以较好的反应成词的可托度。可以对语估中相邻共现的各个字的组合的频度停止统计,盘算它们的互现信息。界说两个字的互现信息,盘算两个汉字X、Y的相邻共现几率。互现信息表现了汉字之间联合关系的严密水平。当严密水平高于某一个阈值时,即可以为此字组能够组成了一个词。这类办法只需对语估中的字组频度停止统计,不需求切分辞书,因此又叫做无辞书分词法或统计取词办法。但这类办法也有必定的局限性,会常常抽出一些共现频度高、但并非词的经常使用字组,例如“这一”、“之一”、“有的”、“我的”、“很多的”等,而且对经常使用词的辨认精度差,时空开支大。实践使用的统计分词体系都要利用一部根基的分词辞书(经常使用词辞书)停止串婚配分词,同时利用统计办法辨认一些新的词,行将串频统计和串婚配联合起来,既发扬婚配分词切分速度快、效力高的特色,又使用了无辞书分词联合高低文辨认生词、主动消弭歧义的长处。
就是管理员可以编辑,删除,回复 等功能,。加入管理员功能要加入登陆系统,慢慢你会想在线添加管理员,慢慢你会让自己的作品更漂亮些,慢慢1个完整的留言板就会出来了, |
|