了解下JAVA的Webharvest收集爬虫使用总结

只看该作者 · 发表于 2015-1-18 11:19:20

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

在ruby里才是一切皆对象。当然我不并不是很了解ruby，但是ruby确实是将语法简化得很好。
Web-Harvest是一个Java开源Web数据抽取工具。它可以搜集指定的Web页面并从这些页面中提取有效的数据。实在现道理是，依据事后界说的设置文件用httpclient猎取页面的全体内容（关于httpclient的内容，本博有些文章已先容），然后使用XPath、XQuery、正则表达式等这些手艺来完成对text/xml的内容选择操纵，拔取准确的数据。前两年对照火的垂直搜刮（好比：酷讯等）也是接纳相似的道理完成的。Web-Harvest使用，关头就是了解和界说设置文件，其他的就是思索怎样处置数据的Java代码。固然在爬虫入手下手前，也能够把Java变量添补到设置文件中，完成静态的设置。
如今以爬取天边论坛的一切版面信息为例，先容Web-Harvest的用法，出格是其设置文件。
天边的版块舆图页面时：http://www.tianya.cn/bbs/index.shtml

登录/注册后可看大图

[天边的部分版面列表]
我们的方针就是要抓取全体的版块信息，包含版块之间的父子干系。
先检察版块舆图的页面源代码，追求纪律：
<div　class="backrgoundcolor">
<div　class="bankuai_list">
　　　　　　　<h3>社会平易近生</h3>
　　　　　　　<ul>
　　　　　　　　　　　　　　<li><a　href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml"　id="item天边杂谈">天边杂谈</a></li>
　　　　　　　　　　　　　　<li><a　href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml"　id="item国际察看">国际察看</a></li>
　　　　　　　　　　　　　　<li><a　href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml"　id="item天边时空">天边时空</a></li>
　　　　　　　　　　　　　　<li><a　href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml"　id="item传媒江湖">传媒江湖</a></li>
　　　　　　　　　　　　　　……　//省略
</ul>
</div>
<div　class="clear"></div>
</div>
<div　class="nobackrgoundcolor">
<div　class="bankuai_list">
　　　　　　　<h3>文学念书</h3>
　　　　　　　　　　　　　　<ul>
　　　　　　　　　　　　　　　　　　　　　<li><a　href="http://www.tianya.cn/techforum/articleslist/0/16.shtml"　id="item莲蓬大话">莲蓬大话</a></li>
　　　　　　　　　　　　　　　　　　　　　<li><a　href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml"　id="item煮酒论史">煮酒论史</a></li>
　　　　　　　　　　　　　　　　　　　　　<li><a　href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml"　id="item舞文弄墨">舞文弄墨</a></li>
　　　　　　　　　　　　　　　　　　　　　…….//省略
　　　　　　　　　　　　　　</ul>
</div>
<div　class="clear"></div>
</div>
…….//省略
<p>
但是对于JAVA技术类的学习，我觉得大课堂反而会影响自身独立思考的过程，因为上课的时候，老师讲课的速度很快为了不遗漏要点，通常会仔细的听，

只看该作者 · 发表于 2015-1-20 20:20:07

是一种为 Internet发展的计算机语言

仓酷云 · 发表于 2015-1-29 20:42:23

Java是一个纯的面向对象的程序设计语言，它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针（以引用取代）、运算符重载（operator overloading）

只看该作者 · 发表于 2015-2-5 04:52:26

当然你也可以参加一些开源项目，一方面可以提高自己，另一方面也是为中国软件事业做贡献嘛！开发者在互联网上用CVS合作开发，用QQ,MSN,E-mail讨论联系，天南海北的程序员分散在各地却同时开发同一个软件，是不是很有意思呢？

只看该作者 · 发表于 2015-2-9 14:10:56

你现在最缺的是实际的工作经验，而不是书本上那些凭空想出来的程序。

只看该作者 · 发表于 2015-2-11 19:51:28

不过，每次的执行编译后的字节码需要消耗一定的时间，这同时也在一定程度上降低了 Java 程序的运行效率。

只看该作者 · 发表于 2015-3-2 17:25:23

还好，SUN提供了Javabean可以把你的JSP中的 Java代码封装起来，便于调用也便于重用。

只看该作者 · 发表于 2015-3-11 20:35:07

Java是一个纯的面向对象的程序设计语言，它继承了 C++语言面向对象技术的核心。Java舍弃了C ++语言中容易引起错误的指针（以引用取代）、运算符重载（operator overloading）

只看该作者 · 发表于 2015-3-13 07:07:15

关于设计模式的资料，还是向大家推荐banq的网站 [url]http://www.jdon.com/[/url]，他把GOF的23种模式以通俗易懂的方式诠释出来，纯Java描述，真是经典中的经典。

只看该作者 · 发表于 2015-3-20 15:38:42

是一种语言，用以产生「小应用程序(Applet(s))

		自动登录	找回密码
密码			立即注册

[学习教程] 了解下JAVA的Webharvest收集爬虫使用总结

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子