仓酷云

标题: 来看dySE:一个Java搜刮引擎的完成,第2部分 网页预处置 [打印本页]

作者: 蒙在股里    时间: 2015-1-18 11:28
标题: 来看dySE:一个Java搜刮引擎的完成,第2部分 网页预处置
JAVA学习必须明确这是一项投资,对于大多数的人来说,学习JAVA是为了就业,还有就是刚走向工作位置的朋友想尽快赶上工作的节奏。
在上一部分中,您懂得到怎样编写一个spider程序来举行网页的爬取,作为spider的爬取了局,我们取得了一个依照必定格局存储的原始网页库,原始网页库也是我们第二部分网页预处置的数据基本。网页预处置的次要方针是将原始网页经由过程一步步的数据处置酿成可便利搜刮的数据情势。上面就让我们慢慢先容网页预处置的计划和完成。
预处置模块的全体布局
预处置模块的全体布局以下:
.预处置模块的全体布局
来看dySE:一个Java搜刮引擎的完成,第2部分 网页预处置
登录/注册后可看大图

<br>
经由过程spider的搜集,保留上去的网页信息具有较好的信息存储格局,可是仍是有一个弱点,就是不克不及依照网页URL间接定位到所指向的网页。以是,在第一个流程中,必要先创建网页的索引,云云经由过程索引,我们能够很便利的从原始网页库中取得某个URL对应的页面信息。以后,我们处置网页数据,关于一个网页,起首必要提取其网页注释信息,其次对注释信息举行分词,以后再依据分词的情形创建索引和倒排索引,如许,网页的预处置也全体完成。大概读者对于个中的某些专业术语会有一些不分明的地方,在后续胪陈各个流程的时分会给出响应的图大概例子来匡助人人了解。
创建索引网页库
原始网页库是依照格局存储的,这关于网页的索引创建供应了便利,下图给出了一条网页信息纪录:
清单1.原始网页库中的一条网页纪录
 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx   // 之前的纪录

 version:1.0              // 纪录头部
 url:http://ast.nlsde.buaa.edu.cn/
 date:Mon Apr 05 14:22:53 CST 2010
 IP:218.241.236.72
 length:3981

 <!DOCTYPE ……           // 纪录数据部分
 <html> …… </html>

 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx   // 以后的纪录
 xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx
<p>
到时我们不用学struts,不用学spring,不用学Hibernate,只要能把jsf学会了,完全可以替代所有的框架,包括AJAX,都知道AJAX并不是新技术,虽说我没深入学习jsf但我认为jsf应该已经能通过其它技术替代AJAX,实现无缝刷新。
作者: 老尸    时间: 2015-1-20 23:50
是一种将安全性(Security)列为第一优先考虑的语言
作者: 若天明    时间: 2015-1-21 12:19
Java自面世后就非常流行,发展迅速,对C++语言形成了有力冲击。Java 技术具有卓越的通用性、高效性、平台移植性和安全性,广泛应用于个人PC、数据中心、游戏控制台
作者: 蒙在股里    时间: 2015-1-24 12:38
Java 编程语言的风格十分接近C、C++语言。
作者: 金色的骷髅    时间: 2015-1-30 18:50
所以现在应用最广泛又最好学的就是J2EE了。 J2EE又包括许多组件,如Jsp,Servlet,JavaBean,EJB,JDBC,JavaMail等。要学习起来可不是一两天的事。那么又该如何学习J2EE呢?当然Java语法得先看一看的,I/O包,Util包,Lang包你都熟悉了吗?然后再从JSP学起。
作者: 第二个灵魂    时间: 2015-2-5 10:49
科学超级计算机、移动电话和互联网,同时拥有全球最大的开发者专业社群。
作者: 小魔女    时间: 2015-2-8 12:24
学Java必读的两个开源程序就是Jive和Pet Store.。 Jive是国外一个非常著名的BBS程序,完全开放源码。论坛的设计采用了很多先进的技术,如Cache、用户认证、Filter、XML等,而且论坛完全屏蔽了对数据库的访问,可以很轻易的在不同数据库中移植。论坛还有方便的安装和管理程序,这是我们平时编程时容易忽略的一部份(中国程序员一般只注重编程的技术含量,却完全不考虑用户的感受,这就是我们与国外软件的差距所在)。
作者: 山那边是海    时间: 2015-2-17 03:54
是一种突破用户端机器环境和CPU
作者: 深爱那片海    时间: 2015-3-5 15:37
多重继承(以接口取代)等特性,增加了垃圾回收器功能用于回收不再被引用的对象所占据的内存空间,使得程序员不用再为内存管理而担忧。在 Java 1.5 版本中,Java 又引入了泛型编程(Generic Programming)、类型安全的枚举、不定长参数和自动装/拆箱等语言特性。
作者: 因胸联盟    时间: 2015-3-12 09:21
有时间再研究一下MVC结构(把Model-View-Control分离开的设计思想)
作者: 灵魂腐蚀    时间: 2015-3-19 19:17
你就该学一学Servlet了。Servlet就是服务器端小程序,他负责生成发送给客户端的HTML文件。JSP在执行时,也是先转换成Servlet再运行的。虽说JSP理论上可以完全取代Servlet,这也是SUN推出JSP的本意,可是Servlet用来控制流程跳转还是挺方便的,也令程序更清晰。接下来你应该学习一下Javabean了,可能你早就看不管JSP在HTML中嵌Java代码的混乱方式了,这种方式跟ASP又有什么区别呢?
作者: 乐观    时间: 2015-4-1 07:12
你就该学一学Servlet了。Servlet就是服务器端小程序,他负责生成发送给客户端的HTML文件。JSP在执行时,也是先转换成Servlet再运行的。虽说JSP理论上可以完全取代Servlet,这也是SUN推出JSP的本意,可是Servlet用来控制流程跳转还是挺方便的,也令程序更清晰。接下来你应该学习一下Javabean了,可能你早就看不管JSP在HTML中嵌Java代码的混乱方式了,这种方式跟ASP又有什么区别呢?




欢迎光临 仓酷云 (http://ckuyun.com/) Powered by Discuz! X3.2