了解下JAVA的Webharvest收集爬虫使用总结
在ruby里才是一切皆对象。当然我不并不是很了解ruby,但是ruby确实是将语法简化得很好。Web-Harvest是一个Java开源Web数据抽取工具。它可以搜集指定的Web页面并从这些页面中提取有效的数据。实在现道理是,依据事后界说的设置文件用httpclient猎取页面的全体内容(关于httpclient的内容,本博有些文章已先容),然后使用XPath、XQuery、正则表达式等这些手艺来完成对text/xml的内容选择操纵,拔取准确的数据。前两年对照火的垂直搜刮(好比:酷讯等)也是接纳相似的道理完成的。Web-Harvest使用,关头就是了解和界说设置文件,其他的就是思索怎样处置数据的Java代码。固然在爬虫入手下手前,也能够把Java变量添补到设置文件中,完成静态的设置。
如今以爬取天边论坛的一切版面信息为例,先容Web-Harvest的用法,出格是其设置文件。
天边的版块舆图页面时:http://www.tianya.cn/bbs/index.shtml
[天边的部分版面列表]
我们的方针就是要抓取全体的版块信息,包含版块之间的父子干系。
先检察版块舆图的页面源代码,追求纪律:
<div class="backrgoundcolor">
<div class="bankuai_list">
<h3>社会平易近生</h3>
<ul>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml" id="item天边杂谈">天边杂谈</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml" id="item国际察看">国际察看</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml" id="item天边时空">天边时空</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml" id="item传媒江湖">传媒江湖</a></li>
…… //省略
</ul>
</div>
<div class="clear"></div>
</div>
<div class="nobackrgoundcolor">
<div class="bankuai_list">
<h3>文学念书</h3>
<ul>
<li><a href="http://www.tianya.cn/techforum/articleslist/0/16.shtml" id="item莲蓬大话">莲蓬大话</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml" id="item煮酒论史">煮酒论史</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml" id="item舞文弄墨">舞文弄墨</a></li>
…….//省略
</ul>
</div>
<div class="clear"></div>
</div>
…….//省略
<p>
但是对于JAVA技术类的学习,我觉得大课堂反而会影响自身独立思考的过程,因为上课的时候,老师讲课的速度很快为了不遗漏要点,通常会仔细的听, 是一种为 Internet发展的计算机语言 Java是一个纯的面向对象的程序设计语言,它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针(以引用取代)、运算符重载(operator overloading) 当然你也可以参加一些开源项目,一方面可以提高自己,另一方面也是为中国软件事业做贡献嘛!开发者在互联网上用CVS合作开发,用QQ,MSN,E-mail讨论联系,天南海北的程序员分散在各地却同时开发同一个软件,是不是很有意思呢? 你现在最缺的是实际的工作经验,而不是书本上那些凭空想出来的程序。 不过,每次的执行编译后的字节码需要消耗一定的时间,这同时也在一定程度上降低了 Java 程序的运行效率。 还好,SUN提供了Javabean可以把你的JSP中的 Java代码封装起来,便于调用也便于重用。 Java是一个纯的面向对象的程序设计语言,它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针(以引用取代)、运算符重载(operator overloading) 关于设计模式的资料,还是向大家推荐banq的网站 http://www.jdon.com/,他把GOF的23种模式以通俗易懂的方式诠释出来,纯Java描述,真是经典中的经典。 是一种语言,用以产生「小应用程序(Applet(s))
页:
[1]