|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
JAVA学习必须明确这是一项投资,对于大多数的人来说,学习JAVA是为了就业,还有就是刚走向工作位置的朋友想尽快赶上工作的节奏。
在上一部分中,您懂得到怎样编写一个spider程序来举行网页的爬取,作为spider的爬取了局,我们取得了一个依照必定格局存储的原始网页库,原始网页库也是我们第二部分网页预处置的数据基本。网页预处置的次要方针是将原始网页经由过程一步步的数据处置酿成可便利搜刮的数据情势。上面就让我们慢慢先容网页预处置的计划和完成。
预处置模块的全体布局
预处置模块的全体布局以下:
.预处置模块的全体布局
<br>
经由过程spider的搜集,保留上去的网页信息具有较好的信息存储格局,可是仍是有一个弱点,就是不克不及依照网页URL间接定位到所指向的网页。以是,在第一个流程中,必要先创建网页的索引,云云经由过程索引,我们能够很便利的从原始网页库中取得某个URL对应的页面信息。以后,我们处置网页数据,关于一个网页,起首必要提取其网页注释信息,其次对注释信息举行分词,以后再依据分词的情形创建索引和倒排索引,如许,网页的预处置也全体完成。大概读者对于个中的某些专业术语会有一些不分明的地方,在后续胪陈各个流程的时分会给出响应的图大概例子来匡助人人了解。
创建索引网页库
原始网页库是依照格局存储的,这关于网页的索引创建供应了便利,下图给出了一条网页信息纪录:
清单1.原始网页库中的一条网页纪录
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx // 之前的纪录
version:1.0 // 纪录头部
url:http://ast.nlsde.buaa.edu.cn/
date:Mon Apr 05 14:22:53 CST 2010
IP:218.241.236.72
length:3981
<!DOCTYPE …… // 纪录数据部分
<html> …… </html>
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx // 以后的纪录
xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
<p>
到时我们不用学struts,不用学spring,不用学Hibernate,只要能把jsf学会了,完全可以替代所有的框架,包括AJAX,都知道AJAX并不是新技术,虽说我没深入学习jsf但我认为jsf应该已经能通过其它技术替代AJAX,实现无缝刷新。 |
|