仓酷云

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 760|回复: 19
打印 上一主题 下一主题

[学习教程] PHP网页设计甚么是中文分词

[复制链接]
不帅 该用户已被删除
跳转到指定楼层
楼主
发表于 2015-2-4 00:09:40 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
聪明的你,显然已经逐渐的开悟了,慢慢的理解了编程的概念,那么祝贺你,你已经迈出了成功的第一步。中文   甚么是中文分词?
  尽人皆知,英文是以词为单元的,词和词之间是靠空格离隔,而中文是以字为单元,句子中一切的字连起来才干描写一个意思。例如,英词句子I am a student,用中文则为:“我是一个先生”。盘算机可以很复杂经由过程空格晓得student是一个单词,然而不克不及很轻易分明“学”、“生”两个字合起来才暗示一个词。把中文的汉字序列切分红成心义的词,就是中文分词,有些人也称为切词。我是一个先生,分词的了局是:我是 一个 先生。
  今朝主流的中文分词算法有:

   1、 基于字符串婚配的分词办法
  这类办法又叫做机械分词办法,它是依照必定的战略将待剖析的汉字串与一个“充实大的”机械辞书中的词条停止配,若在辞书中找到某个字符串,则婚配胜利(辨认出一个词)。依照扫描偏向的分歧,串婚配分词办法可以分为正向婚配和逆向婚配;依照分歧长度优先婚配的情形,可以分为最大(最长)婚配和最小(最短)婚配;依照是不是与词性标注进程相联合,又可以分为纯真分词办法和分词与标注相联合的一体化办法。经常使用的几种机械分词办法以下:
  1)正向最大婚配法(由左到右的偏向);
  2)逆向最大婚配法(由右到左的偏向);
  3)起码切分(使每句中切出的词数最小)。
  还可以将上述各类办法互相组合,例如,可以将正向最大婚配办法和逆向最大婚配办法联合起来组成双向婚配法。因为汉语单字成词的特色,正向最小婚配和逆向最小婚配普通很少利用。普通说来,逆向婚配的切分精度略高于正向婚配,碰到的歧义景象也较少。统计了局标明,纯真利用正向最大婚配的毛病率为1/169,纯真利用逆向最大婚配的毛病率为1/245。但这类精度还远远不克不及知足实践的需求。实践利用的分词体系,都是把机械分词作为一种初分别段,还需经由过程使用各类其它的言语信息来进一步进步切分的正确率。
  一种办法是改善扫描体例,称为特点扫描或标记切分,优先在待剖析字符串中辨认和切分出一些带有分明特点的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而削减婚配的毛病率。另外一种办法是将分词和词类标注联合起来,使用丰厚的词类信息对分词决议计划供应匡助,而且在标注过程当中又反过去对分词了局停止查验、调剂,从而极大地进步切分的正确率。
  关于机械分词办法,可以创立一个普通的模子,在这方面有专业的学术论文,这里不做具体论说。
  
2、 基于了解的分词办法

  这类分词办法是经由过程让盘算机摹拟人对句子的了解,到达辨认词的后果。其根基思惟就是在分词的同时停止句法、语义剖析,使用句法信息和语义信息来处置歧义景象。它凡是包含三个局部:分词子体系、句法语义子体系、总控局部。在总控局部的调和下,分词子体系可以取得有关词、句子等的句法和语义信息来对分词歧义停止判别,即它摹拟了人对句子的了解进程。这类分词办法需求利用大批的言语常识和信息。因为汉语言语常识的笼统、庞杂性,难以将各类言语信息组织成机械可直接读取的模式,因而今朝基于了解的分词体系还处在实验阶段。
  
3、 基于统计的分词办法

  从模式上看,词是不乱的字的组合,因而在高低文中,相邻的字同时呈现的次数越多,就越有能够组成一个词。因而字与字相邻共现的频率或几率可以较好的反应成词的可托度。可以对语估中相邻共现的各个字的组合的频度停止统计,盘算它们的互现信息。界说两个字的互现信息,盘算两个汉字X、Y的相邻共现几率。互现信息表现了汉字之间联合关系的严密水平。当严密水平高于某一个阈值时,即可以为此字组能够组成了一个词。这类办法只需对语估中的字组频度停止统计,不需求切分辞书,因此又叫做无辞书分词法或统计取词办法。但这类办法也有必定的局限性,会常常抽出一些共现频度高、但并非词的经常使用字组,例如“这一”、“之一”、“有的”、“我的”、“很多的”等,而且对经常使用词的辨认精度差,时空开支大。实践使用的统计分词体系都要利用一部根基的分词辞书(经常使用词辞书)停止串婚配分词,同时利用统计办法辨认一些新的词,行将串频统计和串婚配联合起来,既发扬婚配分词切分速度快、效力高的特色,又使用了无辞书分词联合高低文辨认生词、主动消弭歧义的长处。



就是管理员可以编辑,删除,回复 等功能,。加入管理员功能要加入登陆系统,慢慢你会想在线添加管理员,慢慢你会让自己的作品更漂亮些,慢慢1个完整的留言板就会出来了,
兰色精灵 该用户已被删除
沙发
发表于 2015-2-4 09:39:32 | 只看该作者
实践是检验自己会不会的真理。
若相依 该用户已被删除
板凳
发表于 2015-2-6 21:23:51 | 只看该作者
当然这种网站的会员费就几十块钱。
admin 该用户已被删除
地板
发表于 2015-2-9 02:09:28 | 只看该作者
做为1门年轻的语言,php一直很努力。
活着的死人 该用户已被删除
5#
发表于 2015-2-9 19:55:48 | 只看该作者
做为1门年轻的语言,php一直很努力。
第二个灵魂 该用户已被删除
6#
发表于 2015-2-12 08:49:15 | 只看该作者
至于模板嘛,各位高人一直以来就是争论不休,我一只小菜鸟就不加入战团啦,咱们新手还是多学点东西的好。
精灵巫婆 该用户已被删除
7#
发表于 2015-3-3 00:20:18 | 只看该作者
如果你可以写完像留言板这样的程序,那么你可以去一些别人的代码了,
小女巫 该用户已被删除
8#
发表于 2015-3-8 00:17:25 | 只看该作者
最后祝愿,php会给你带来快乐的同时 你也会给他带来快乐。
愤怒的大鸟 该用户已被删除
9#
发表于 2015-3-12 16:37:50 | 只看该作者
再就是混迹于论坛啦,咱们的phpchina的论坛就很强大,提出的问题一般都是有达人去解答的,以前的帖子也要多看看也能学到不少前辈们的经验。别的不错的论坛例如php100,javaeye也是很不错的。
再现理想 该用户已被删除
10#
发表于 2015-3-16 04:51:21 | 只看该作者
这些都是最基本最常用功能,我们这些菜鸟在系统学习后,可以先对这些功能深入研究。
莫相离 该用户已被删除
11#
发表于 2015-3-17 09:39:42 | 只看该作者
Ps:以上纯属原创,如有雷同,纯属巧合
飘灵儿 该用户已被删除
12#
发表于 2015-3-24 05:55:40 | 只看该作者
当留言板完成的时候,下步可以把做1个单人的blog程序,做为目标,
不帅 该用户已被删除
13#
 楼主| 发表于 2015-3-25 08:56:44 | 只看该作者
最后介绍一个代码出错,但是老找不到错误方法,就是 go to wc (囧),出去换换气没准回来就找到错误啦。
透明 该用户已被删除
14#
发表于 2015-4-4 12:27:42 | 只看该作者
说php的话,首先得提一下数组,开始的时候我是最烦数组的,总是被弄的晕头转向,不过后来呢,我觉得数组里php里最强大的存储方法,所以建议新手们要学好数组。
简单生活 该用户已被删除
15#
发表于 2015-4-12 03:36:37 | 只看该作者
不禁又想起那些说php是草根语言的人,为什么认得差距这么大呢。
16#
发表于 2015-4-14 23:16:30 | 只看该作者
当留言板完成的时候,下步可以把做1个单人的blog程序,做为目标,
小妖女 该用户已被删除
17#
发表于 2015-4-16 17:51:45 | 只看该作者
Apache不是非得用80或者8080端口的,我刚开始安得时候就是80端口老占用,就用了个 81端口,结果照常,就是输localhost的时候,应该输入为 localhost:81
柔情似水 该用户已被删除
18#
发表于 2015-4-27 17:17:22 | 只看该作者
我还是强烈建议自己搭建php环境。因为在搭建的过程中你会遇到一些问题,通过搜索或是看php手册解决问题后,你会更加深刻的理解它们的工作原理,了解到php配置文件中的一些选项设置。
乐观 该用户已被删除
19#
发表于 2015-5-2 20:50:09 | 只看该作者
学好程序语言,多些才是王道,写两个小时代码的作用绝对超过看一天书,这个我是深有体会(顺便还能练打字速度)。
若天明 该用户已被删除
20#
发表于 2015-5-6 20:47:28 | 只看该作者
有时候汉字的空格也能导致页面出错,所以在写代码的时候,要输入空格最好用引文模式。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|仓酷云 鄂ICP备14007578号-2

GMT+8, 2024-11-13 10:31

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表