PHP教程之PHP扩大curl和正则表达式轻松收集旧事

只看该作者 · 发表于 2015-2-3 23:44:19

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

您需要登录才可以下载或查看，没有帐号？立即注册

x

理解网站这一概念之后不难看出，任何网站都是由网页组成的，也就是说想完成网站，必须先学会做网页，因此必须要掌握了HTML，才能为今后制作网站打下基础。 </p> 收集已不是甚么新名词了，良多站长为了省事，也局限于人力的缺少，利用法式来给本人的网站添砖加瓦，好比自己的团体网站www.xxfsw.com也收集了大批的旧事，那末假如完成呢？明天咱们应用php来完成这个功效。
谈到收集，咱们不能不说两个器材，第一个是若何获得近程网站的源代码，这个可以经由过程php的一个扩大curl来获得，另外一个是假如去婚配你需求的信息，这个的处理举措是正则表达式。
Windows下开启curl的办法以下：
1、拷贝PHP目次中的libeay32.dll， ssleay32.dll， php5ts.dll， php_curl.dll文件到 system32 目次。
2、修正php.ini：设置装备摆设好 extension_dir ，去失落 extension = php_curl.dll 后面的分号。
3、重起apache。
Linux下开启curl的办法以下：
进入装置原php 的源码目次，
cd ext
cd curl
phpize
./configure --with-curl =DIR
make
就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。
复制curl .so文件到extensions的设置装备摆设目次，修正php .ini就行了。
然后你就能够使用curl来获得到指定url的网页源码了，这里给人人一个封装好的函数：
  以下为援用的内容：
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return  $contents;
}
接上去就应当说到php中的正则表达式了：
1.中括号
［0-9］婚配0-9
［a-z］婚配a-z小写字母
［A-Z］婚配A-Z大写字母
［a-zA-Z］婚配一切巨细写字母
可使用ascii来制订更多
2.量词
  以下为援用的内容：
p+婚配最少一个含p的字符串
p*陪陪任何包括0个或多个p的字符串
p?婚配任何包括0个或一个p的字符串
p{2}婚配包括2个p的序列的字符串
p{2,3}婚配任何包括2个或3个的字符串
p$婚配任何故p开头的字符串
^p婚配任何故p开首的字符串
[^a-zA-Z]婚配任何不包括a-zA-Z的字符串
p.p婚配任何包括p、接上去是任何字符、再接上去有又是p的字符串
^.{2}$婚配任何值包括2个字符的字符串
<b>(.*)b>婚配任何被<b>>包抄的字符串
p(hp)*婚配任何一个包括p,前面是多个或0个hp的字符串
3.预界说字符局限
  以下为援用的内容：
[:alpha:]同[a-zA-Z]
[:alnum:]同[a-zA-Z0-9]
[:cntrl:]婚配掌握字符，好比制表符，反斜杠，退格符
[:digit:]同[0-9]
[:graph:]一切ASCII33~166局限内可以打印的字符
[:lower:]同[a-z]
[:punct:]标点符号
[:upper:]同[A-Z]
[:space:]空白字符，可所以空格、程度制表符、换行、换页、回车
[:xdigit:]十六进制符同[a-fA-F0-9]
空话不多说，直接上我的源码吧，有甚么不懂的可以上百度查查。
  以下为援用的内容：
<?php
header("Content-type: text/html; charset=utf-8");
getinfo("http://rss.sina.com.cn/rollnews/news/gn_total.js",1);
getinfo("http://rss.sina.com.cn/rollnews/news/gj_total.js",2);
getinfo("http://rss.sina.com.cn/rollnews/news/sh_total.js",3);
getinfo("http://rss.sina.com.cn/rollnews/sports/sports_total.js",4);
getinfo("http://rss.sina.com.cn/rollnews/tech/tech1_total.js",5);
getinfo("http://rss.sina.com.cn/rollnews/finance/finance1_news_total.js",6);
getinfo("http://rss.sina.com.cn/rollnews/ent/ent_total.js",7);
getinfo("http://rss.sina.com.cn/rollnews/jczs/jczs_total.js",8);
function getinfo($infourl,$catid)
{
$pagecontent=getwebcontent($infourl);
preg_match_all("/title:\"(.*?)\"/", $pagecontent, $match);
$titlearr=$match[1];
preg_match_all("/link:\"(.*?)\"/", $pagecontent, $match);
$urlarr=$match[1];
for ($i=1;$i<count($urlarr);$i++){
      echo "go {$titlearr[$i-1]}\n";
      $title=iconv("gbk","utf-8",$titlearr[$i-1]);
      $content=iconv("gbk","utf-8",getnewscontent($urlarr[$i]));
      $content=mysql_escape_string($content);
      if(!insertdb($title,$content,$catid)) break;
}
}
function insertdb($title,$content,$catid){
将数据写入你的库
}
function getnewscontent($newsurl){
$newscontent=getwebcontent($newsurl);
preg_match_all("/<div class=\"blkContainerSblkCon\" id=\"artibody\">([\s\S]*?)/",$newscontent,$match);
$content=preg_replace("/<a.*?<\/a>/si","",$match[1][0]);
$content=preg_replace("/<div style=\"overflow:hidden;zoom:1;\" class=\"otherContent_01\">.*?<\/div>/si","",$content);
$content=preg_replace("/<div class=\"blk-video\">.*?<div class=\"clearcl\"><\/div>/si","",$content);
$content=str_replace("<div style=\"clear:both;height:0;visibility:hiddden;overflow:hidden;\"></div>","",$content);
return $content;
}
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return  $contents;
}
?>
然后若何完成对照及时的同步呢，这可以使用windows下的义务企图或linux下的crontab 了，准时（好比非常钟）履行这个法式，如许，你就不再愁网站没有内容了，哈哈，别的自己开了个任务室www.beijingjianzhan.com（北京建站），咱们开辟了一个体系，不但可以收集信息，并且能主动地停止再加工，停止伪原创，如许就更合适搜刮引擎的咀嚼了，让你的网站猖狂地被收录吧，别的可以加我的Q376504340会商手艺性话题。
你的确对PHP有兴趣，那么选择教材也是很重要的。

只看该作者 · 发表于 2015-2-4 06:24:28

为了以后维护的方便最好是代码上都加上注释，“予人方便，自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。

只看该作者 · 发表于 2015-2-9 17:29:49

至于模板嘛，各位高人一直以来就是争论不休，我一只小菜鸟就不加入战团啦，咱们新手还是多学点东西的好。

只看该作者 · 发表于 2015-2-9 17:56:59

为了以后维护的方便最好是代码上都加上注释，“予人方便，自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。

只看该作者 · 发表于 2015-2-10 22:51:49

php里的数组为空的时候是不能拿来遍历的；（这个有点低级啊，不过我刚被这个边界问题墨迹了好长一会）

只看该作者 · 发表于 2015-2-23 11:00:16

在我安装pear包的时候老是提示，缺少某某文件，才发现那群extension 的排列是应该有一点的顺序，而我安装的版本的排序不是正常的排序。没办法我只好把那群冒号加了上去，只留下我需要使用的扩展。

只看该作者 · 发表于 2015-2-26 15:37:26

实践是检验自己会不会的真理。

只看该作者 · 发表于 2015-3-2 23:39:37

有位前辈曾经跟我说过，phper 至少要掌握200个函数编起程序来才能顺畅点，那些不熟悉的函数记不住也要一拿手册就能找到。所以建议新手们没事就看看php的手册（至少array函数和string函数是要记牢的）。

只看该作者 · 发表于 2015-3-11 07:31:44

php是动态网站开发的优秀语言，在学习的时候万万不能冒进。在系统的学习前，我认为不应该只是追求实现某种效果，因为即使你复制他人的代码调试成功，实现了你所期望的效果，你也不了解其中的原理。

只看该作者 · 发表于 2015-3-17 23:09:20

Apache不是非得用80或者8080端口的，我刚开始安得时候就是80端口老占用，就用了个 81端口，结果照常，就是输localhost的时候，应该输入为 localhost:81

只看该作者 · 发表于 2015-3-25 06:13:08

刚开始安装php的时候，我图了个省事，把php的扩展全都打开啦（就是把php.ini 那一片 extension 前面的冒号全去掉啦），这样自然有好处，以后不用再需要什么功能再来打开。

只看该作者 · 发表于 2015-3-26 16:14:04

刚开始安装php的时候，我图了个省事，把php的扩展全都打开啦（就是把php.ini 那一片 extension 前面的冒号全去掉啦），这样自然有好处，以后不用再需要什么功能再来打开。

只看该作者 · 发表于 2015-4-2 14:41:00

我要在声明一下：我是个菜鸟！！我对php这门优秀的语言也是知之甚少。但是我要在这里说一下php在网站开发中最常用的几个功能：

只看该作者 · 发表于 2015-4-4 00:26:47

使用zendstdio 写代码的的时候，把tab 的缩进设置成4个空格是很有必要的

只看该作者 · 发表于 2015-4-10 08:36:29

如果你可以写完像留言板这样的程序，那么你可以去一些别人的代码了，

只看该作者 · 发表于 2015-4-19 22:40:37

如果你可以写完像留言板这样的程序，那么你可以去一些别人的代码了，

只看该作者 · 发表于 2015-4-21 23:11:50

在我安装pear包的时候老是提示，缺少某某文件，才发现那群extension 的排列是应该有一点的顺序，而我安装的版本的排序不是正常的排序。没办法我只好把那群冒号加了上去，只留下我需要使用的扩展。

只看该作者 · 发表于 2015-4-24 23:51:09

我还是推荐用firefox ，配上firebug 插件调试js能省下不受时间。谷歌的浏览器最好也不少用，因为谷歌的大侠们实在是太天才啦，把一些原来的js代码加了一些特效。

只看该作者 · 发表于 2015-5-1 19:10:15

作为一个合格的coder 编码的规范是必须，命名方面我推崇“驼峰法”，另外就是自己写的代码最好要带注释，不然时间长了，就算是自己的代码估计看起来都费事，更不用说别人拉。

只看该作者 · 发表于 2015-5-3 14:06:20

刚开始安装php的时候，我图了个省事，把php的扩展全都打开啦（就是把php.ini 那一片 extension 前面的冒号全去掉啦），这样自然有好处，以后不用再需要什么功能再来打开。

		自动登录	找回密码
密码			立即注册

[学习教程] PHP教程之PHP扩大curl和正则表达式轻松收集旧事

马上注册，结交更多好友，享用更多功能，让你轻松玩转社区。

相关帖子