PHP网站制作之PHP图书网站收集实例教程八路中文,contents,采集器,网站,程序

海妖发表于 2015-2-3 23:53:14

PHP网站制作之PHP图书网站收集实例教程

怎么样出来了吧，怎么样自己也可以写出php程序了，虽然离职业和专业的人还有很远，但是好的开始是成功的一半。这个时候改怎么做了呢。现在就是拿1本高手推荐的书，重头到尾读1遍，我说的这个读是自己看。在网上看到良多复杂的收集教程，特别是针对图书网站的对照多，但附带实例的其实不多，在看了一篇针对八路中文网的抓取剖析后，决意针对这个网站，写一个复杂的抓取教程，并附带实例。因为俺偷懒，文中良多剖析都是来自《使用PHP制造复杂的内容收集器》，俺只是进一步优化了他的流程，并完成了代码实例的编写。
收集法式其实其实不难做，只需剖析清晰流程，然后利用适合的正则来取到你想要的内容就能够了。空话不说了，教程入手下手：
1.剖析进口：
多翻开几本书后，可以发明书名的根基格局是：http://www.86zw.com/Book/书号/Index.aspx。因而得出：

代码:
$BookId='1888';
$index="http://www.86zw.com/Book/".$BookId."/Index.aspx";//组合书目首页URL
2.翻开页面：

代码:
$contents=file_get_contents($index);
3.抓取图手札息页：

代码:
//抓取图书相干信息
preg_match_all("/<div id=\"CrBookTitle\"><span class=\"booktitle\">(.*)<\/span><\/div>/is",$contents,$Arraytitle);
preg_match_all("/【<a href=\"(.*)\"><font color=\"#CC0000\">点击浏览<\/font><\/a>】/is",$contents,$Arraylist);
unset($contents);
$title=$Arraytitle;//书名
$list="http://www.86zw.com".trim($Arraylist);//列表页URL
4.创立保留目次及文件：

代码:
//生成文本文档称号
$txt_name=$title.".txt";
Creatdir($BookId);//创立图片文件夹
writeStatistic($title."\r\n",$txt_name);//图书题目写入文本文件
5.进出列表页：

代码:
//进出列表页
$list_contents=file_get_contents($list);
6.抓取列表页章节：

代码:
//进出列表页
//分章节抓块
preg_match_all("|<div id=\"NclassTitle\">(.*)【<a href=\"(.*)\">分卷浏览<\/a>】<\/div>(.*)<div id=\"ListEnd\"><\/div>|Uis",$list_contents,$Block);
//盘算总章节数
$regcount=count($Block);
7.分章节停止抓取：

代码:
//进入章节
for($pageBookNum=0;$pageBookNum<$regcount;$pageBookNum++){
unset($Zhang);
unset($list_url);
$Zhang=$Block[$pageBookNum];//章节题目
writeStatistic('章节：'.($pageBookNum+1).' '.$Zhang."\r\n",$txt_name);//章节题目写入文本文件
preg_match_all("|<li><a href=\"(.*)\" title=\"(.*)\">(.*)<\/a><\/li>|Uis",$Block[$pageBookNum],$list_url);
//进入页面
for($ListNum=0;$ListNum<count($list_url);$ListNum++){
   unset($Book_url);
   unset($Book);
   unset($Book_contents);
   unset($Book_time);
   unset($Book_title);
   $Book_time=$list_url[$ListNum];//小章节更新信息
   $Book_title=$list_url[$ListNum];//小章节题目
   $Book_url=preg_replace("'Index.shtm'si",$list_url[$ListNum],$list);//小章节链接URL
   writeStatistic(($ListNum+1).'.'.$Book_title.'-'.$Book_time."\r\n",$txt_name);//小章节题目写入文本文件
   $Book=file_get_contents($Book_url);
   //抓取图书内容
   preg_match_all("/<div id=\"BookText\">(.*)<iframe id=hkwxc/is",$Book,$Arraycontents);
   $Book_contents=preg_replace("|<div style='display:none'>.*<\/div>|Uis",'',$Arraycontents);
   //$Book_contents=preg_replace("|<br />|Uis",'\n\r',$Book_contents);
   //$Book_contents=preg_replace("|<br>|Uis",'\n\r',$Book_contents);
   $Book_contents=preg_replace("| |Uis",' ',$Book_contents);
   $Book_contents=strip_tags($Book_contents);
   //判别图片页面
   if (preg_match ("/<div align=\"center\"><img src=\".*\" id=\"imgbook\" name=\"imgbook\" border=\"0\" \/><\/div>/i", $Book_contents)) {
         //取图片URL
         preg_match_all("|<div align=\"center\"><img src=\"(.*)\" id=\"imgbook\" name=\"imgbook\" border=\"0\" \/><\/div>|Uis",$Book_contents,$images);
         //取图片
         for($ImageNum=0;$ImageNum<count($images);$ImageNum++){
            unset($Image_url);
            $Image_url="http://www.86zw.com".trim($images[$ImageNum]);
            $New_url='image/'.$BookId.'/'.time().'.gif';
            //复制图片并生成图片毗连
            if (copy($Image_url, $New_url)){
               $Book_contents.="<img src=$New_url>";
            }
         }//取图片停止
   }//图片判别停止

   writeStatistic($Book_contents,$txt_name);//内容写入文本文件
}//页面轮回停止
}//章节轮回停止
两个利用的函数：

代码:
/**
* 将内如写入指定文件包
*
* 参数: string $sql : 写入的内容
   string $txt_name : 指定文件名
* 前往: void
* 感化域: public
* 日期: 2007-11-29
*/
function writeStatistic($sql,$txt_name){
$filename="txt_packet/".$txt_name;//注重修正文件的途径
if (file_exists($filename)) {
   $fp=fopen($filename,"a");
}else{
   $fp=fopen($filename,"w");
}

$text=$sql;
fwrite($fp,$text);
fclose($fp);
}
/**
* 创立文件夹
*
* 参数: string $BookId : 指定文件夹名
* 前往: void
* 感化域: public
* 日期: 2007-11-29
*/
function Creatdir($BookId){
$filename="image/".$BookId;//注重修正文件的途径
if (!file_exists($filename)) {
   mkdir($filename,0777);
}
}
自此完成一本书的复杂收集。
写这个就是为了给想懂得收集的PHPer一个复杂的实例，收集其实很复杂。。。我先解释一下我的学习思路。

柔情似水 发表于 2015-2-4 06:49:30

这些中手常用的知识，当你把我说的这些关键字都可以熟练运用的时候，你可以选择自己

分手快乐 发表于 2015-2-5 14:43:07

首先声明：我是一个菜鸟，是一个初学者。学习了一段php后总是感觉自己没有提高，无奈。经过反思我认为我学习过程中存在很多问题，我改变了学习方法后自我感觉有了明显的进步。

仓酷云 发表于 2015-2-12 06:54:12

说点我烦的低级错误吧，曾经有次插入mysql的时间弄了300年结果老报错，其实mysql的时间是有限制的，大概是到203X年具体的记不清啦，囧。

小妖女 发表于 2015-2-15 20:30:45

php里的数组为空的时候是不能拿来遍历的；（这个有点低级啊，不过我刚被这个边界问题墨迹了好长一会）

莫相离 发表于 2015-3-6 10:58:49

至于模板嘛，各位高人一直以来就是争论不休，我一只小菜鸟就不加入战团啦，咱们新手还是多学点东西的好。

飘飘悠悠 发表于 2015-3-13 00:07:29

使用zendstdio 写代码的的时候，把tab 的缩进设置成4个空格是很有必要的

admin 发表于 2015-3-20 06:23:37

因为blog这样的可以让你接触更多要学的知识，可以接触用到类，模板，js ，ajax

精灵巫婆 发表于 2015-3-22 04:07:51

开发工具也会慢慢的更专业，每个公司的可能不一样，但是zend studio是个大伙都会用的。

深爱那片海 发表于 2015-4-9 19:06:41

这些中手常用的知识，当你把我说的这些关键字都可以熟练运用的时候，你可以选择自己

爱飞发表于 2015-4-16 03:10:08

对于懒惰的朋友，我推荐php的集成环境xampp或者是wamp。这两个软件安装方便，使用简单。但是我还是强烈建议自己动手搭建开发环境。

若相依 发表于 2015-5-4 14:46:16

建数据库表的时候，int型要输入长度的，其实是个摆设的输入几位都没影响的，只要大于4就行，囧。

乐观发表于 2015-5-6 08:12:01

曾经犯过一个很低级的错误，我在文件命名的时候用了一个横线\\\\\\\'-\\\\\\\' 号，结果找了好几个小时的错误，事实是命名的时候是不能用横线 \\\\\\\'-\\\\\\\' 的，应该用的是下划线\\\\\\\'_\\\\\\\' ;

再见西城 发表于 2015-6-29 05:25:04

其实也不算什么什么心得，在各位大侠算是小巫见大巫了吧，望大家不要见笑，若其中有错误的地方请各位大虾斧正。

冷月葬花魂 发表于 2015-7-20 00:41:48

为了以后维护的方便最好是代码上都加上注释，“予人方便，自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。

第二个灵魂 发表于 2015-7-21 13:46:16

如果你已经到这种程度了，那么你已经可以做我的老师了。其实php也分很多的区域，

简单生活 发表于 2015-7-24 09:57:29

有时候汉字的空格也能导致页面出错，所以在写代码的时候，要输入空格最好用引文模式。

因胸联盟 发表于 2015-9-22 20:20:32

说php的话，首先得提一下数组，开始的时候我是最烦数组的，总是被弄的晕头转向，不过后来呢，我觉得数组里php里最强大的存储方法，所以建议新手们要学好数组。

愤怒的大鸟 发表于 2015-10-5 21:55:36

个人呢觉得，配wamp 最容易漏的一步就是忘了把$PHP$目录下的libmysql.dll拷贝到windows系统目录的system32目录下，还有重启apache。

页: [1]

仓酷云's Archiver

PHP网站制作之PHP图书网站收集实例教程