|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
在ruby里才是一切皆对象。当然我不并不是很了解ruby,但是ruby确实是将语法简化得很好。
Web-Harvest是一个Java开源Web数据抽取工具。它可以搜集指定的Web页面并从这些页面中提取有效的数据。实在现道理是,依据事后界说的设置文件用httpclient猎取页面的全体内容(关于httpclient的内容,本博有些文章已先容),然后使用XPath、XQuery、正则表达式等这些手艺来完成对text/xml的内容选择操纵,拔取准确的数据。前两年对照火的垂直搜刮(好比:酷讯等)也是接纳相似的道理完成的。Web-Harvest使用,关头就是了解和界说设置文件,其他的就是思索怎样处置数据的Java代码。固然在爬虫入手下手前,也能够把Java变量添补到设置文件中,完成静态的设置。
如今以爬取天边论坛的一切版面信息为例,先容Web-Harvest的用法,出格是其设置文件。
天边的版块舆图页面时:http://www.tianya.cn/bbs/index.shtml
[天边的部分版面列表]
我们的方针就是要抓取全体的版块信息,包含版块之间的父子干系。
先检察版块舆图的页面源代码,追求纪律:
<div class="backrgoundcolor">
<div class="bankuai_list">
<h3>社会平易近生</h3>
<ul>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/free.shtml" id="item天边杂谈">天边杂谈</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/worldlook.shtml" id="item国际察看">国际察看</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/news.shtml" id="item天边时空">天边时空</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/no06.shtml" id="item传媒江湖">传媒江湖</a></li>
…… //省略
</ul>
</div>
<div class="clear"></div>
</div>
<div class="nobackrgoundcolor">
<div class="bankuai_list">
<h3>文学念书</h3>
<ul>
<li><a href="http://www.tianya.cn/techforum/articleslist/0/16.shtml" id="item莲蓬大话">莲蓬大话</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/no05.shtml" id="item煮酒论史">煮酒论史</a></li>
<li><a href="http://www.tianya.cn/publicforum/articleslist/0/culture.shtml" id="item舞文弄墨">舞文弄墨</a></li>
…….//省略
</ul>
</div>
<div class="clear"></div>
</div>
…….//省略
<p>
但是对于JAVA技术类的学习,我觉得大课堂反而会影响自身独立思考的过程,因为上课的时候,老师讲课的速度很快为了不遗漏要点,通常会仔细的听, |
|