|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
会MYSQL吗?会,我会把我的信息在数据库里插入删除啦如今的CMS都自带了收集功效,内容和题目绝对来讲很优点理,但大局部情形关头词很难能提取到。因而主动获得关头字成为以后PHP类CMS的“传统成绩”。那若何才干主动获得关头词呢,其次要步调次要可以分为以下三个步调: 1,经由过程分词算法将题目和内容分离停止朋分,提掏出关头词和频度在内容的分词阶段,以后次要的两个算法是中科院的ICTCLAS和隐马尔可夫模子。但这两个都太高端,有必定的门坎,且都是只撑持C++/JAVA。基于PHP确当前有两个是值得保举的PSCWS和HTTPCWS。 SCWS于2008-03-08宣布1.0.0 正式版,到如今最新版本已到了1.0.4。PSCWS是它的PHP版。而HTTPCWS是张宴开辟的,之前叫PHPCWS。PHPCWS 先利用“ICTCLAS 3.0 同享版中文分词算法”的API停止初度分词处置,再利用自行编写的“逆向最大婚配算法”对分词和停止词语兼并处置,并增添标点符号过滤功效,得出分词了局。今朝仅撑持Linux/Unix体系。
2,将提取了局与现有词库停止对照,失掉最合适划定规矩的关头词这里次要就是要看词库了,咱们可以本人界说词库,也能够利用现有的成熟词库。
3,然后将这两套关头词停止对照,失掉最合适以后内容的关头词在这个阶段就是详细情形详细剖析了。以后PHP类CMS都自有本人的提取关头词体系。个中在收集下流传最广的是DEDECMS的分词源码,我也在我的POPCMS上作过测试,后果很不错,不外相似“咱们”等有意义的词提取并被列为关头词的频率太高,乃至有时分还会把空格的HTML提出来做为关头词,亟待改善。不外假如作为帮助功效,它已很好了。别的PHPCMS和DISCUZ的主动提取关头词功效也很壮大。
可以在书上很方便地做标记,及时记下自己的心得体会。 |
|