莫相离 发表于 2015-1-18 11:19:20

了解下JAVA的Webharvest收集爬虫使用总结

在ruby里才是一切皆对象。当然我不并不是很了解ruby,但是ruby确实是将语法简化得很好。
Web-Harvest是一个Java开源Web数据抽取工具。它可以搜集指定的Web页面并从这些页面中提取有效的数据。实在现道理是,依据事后界说的设置文件用httpclient猎取页面的全体内容(关于httpclient的内容,本博有些文章已先容),然后使用XPath、XQuery、正则表达式等这些手艺来完成对text/xml的内容选择操纵,拔取准确的数据。前两年对照火的垂直搜刮(好比:酷讯等)也是接纳相似的道理完成的。Web-Harvest使用,关头就是了解和界说设置文件,其他的就是思索怎样处置数据的Java代码。固然在爬虫入手下手前,也能够把Java变量添补到设置文件中,完成静态的设置。
如今以爬取天边论坛的一切版面信息为例,先容Web-Harvest的用法,出格是其设置文件。
天边的版块舆图页面时:http://www.tianya.cn/bbs/index.shtml

[天边的部分版面列表]
我们的方针就是要抓取全体的版块信息,包含版块之间的父子干系。
先检察版块舆图的页面源代码,追求纪律:
<div class="backrgoundcolor">
<div class="bankuai_list">
       <h3>社会平易近生</h3>
       <ul>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml" id="item天边杂谈">天边杂谈</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml" id="item国际察看">国际察看</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml" id="item天边时空">天边时空</a></li>
              <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml" id="item传媒江湖">传媒江湖</a></li>
              …… //省略
</ul>
</div>
<div class="clear"></div>
</div>
<div class="nobackrgoundcolor">
<div class="bankuai_list">
       <h3>文学念书</h3>
              <ul>
                     <li><a href="http://www.tianya.cn/techforum/articleslist/0/16.shtml" id="item莲蓬大话">莲蓬大话</a></li>
                     <li><a href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml" id="item煮酒论史">煮酒论史</a></li>
                     <li><a href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml" id="item舞文弄墨">舞文弄墨</a></li>
                     …….//省略
              </ul>
</div>
<div class="clear"></div>
</div>
…….//省略
<p>
但是对于JAVA技术类的学习,我觉得大课堂反而会影响自身独立思考的过程,因为上课的时候,老师讲课的速度很快为了不遗漏要点,通常会仔细的听,

精灵巫婆 发表于 2015-1-20 20:20:07

是一种为 Internet发展的计算机语言

仓酷云 发表于 2015-1-29 20:42:23

Java是一个纯的面向对象的程序设计语言,它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针(以引用取代)、运算符重载(operator overloading)

冷月葬花魂 发表于 2015-2-5 04:52:26

当然你也可以参加一些开源项目,一方面可以提高自己,另一方面也是为中国软件事业做贡献嘛!开发者在互联网上用CVS合作开发,用QQ,MSN,E-mail讨论联系,天南海北的程序员分散在各地却同时开发同一个软件,是不是很有意思呢?

飘灵儿 发表于 2015-2-9 14:10:56

你现在最缺的是实际的工作经验,而不是书本上那些凭空想出来的程序。

乐观 发表于 2015-2-11 19:51:28

不过,每次的执行编译后的字节码需要消耗一定的时间,这同时也在一定程度上降低了 Java 程序的运行效率。

若相依 发表于 2015-3-2 17:25:23

还好,SUN提供了Javabean可以把你的JSP中的 Java代码封装起来,便于调用也便于重用。

兰色精灵 发表于 2015-3-11 20:35:07

Java是一个纯的面向对象的程序设计语言,它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针(以引用取代)、运算符重载(operator overloading)

小妖女 发表于 2015-3-13 07:07:15

关于设计模式的资料,还是向大家推荐banq的网站 http://www.jdon.com/,他把GOF的23种模式以通俗易懂的方式诠释出来,纯Java描述,真是经典中的经典。

小女巫 发表于 2015-3-20 15:38:42

是一种语言,用以产生「小应用程序(Applet(s))
页: [1]
查看完整版本: 了解下JAVA的Webharvest收集爬虫使用总结