仓酷云
标题:
PHP教程之PHP扩大curl和正则表达式轻松收集旧事
[打印本页]
作者:
精灵巫婆
时间:
2015-2-3 23:44
标题:
PHP教程之PHP扩大curl和正则表达式轻松收集旧事
理解网站这一概念之后不难看出,任何网站都是由网页组成的,也就是说想完成网站,必须先学会做网页,因此必须要掌握了HTML,才能为今后制作网站打下基础。 </p> 收集已不是甚么新名词了,良多站长为了省事,也局限于人力的缺少,利用法式来给本人的网站添砖加瓦,好比自己的团体网站www.xxfsw.com也收集了大批的旧事,那末假如完成呢?明天咱们应用php来完成这个功效。
谈到收集,咱们不能不说两个器材,第一个是若何获得近程网站的源代码,这个可以经由过程php的一个扩大curl来获得,另外一个是假如去婚配你需求的信息,这个的处理举措是正则表达式。
Windows下开启curl的办法以下:
1、拷贝PHP目次中的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll文件到 system32 目次。
2、修正php.ini:设置装备摆设好 extension_dir ,去失落 extension = php_curl.dll 后面的分号。
3、重起apache。
Linux下开启curl的办法以下:
进入装置 原php 的源码目次,
cd ext
cd curl
phpize
./configure --with-curl =DIR
make
就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。
复制curl .so文件到extensions的设置装备摆设目次,修正php .ini就行了。
然后你就能够使用curl来获得到指定url的网页源码了,这里给人人一个封装好的函数:
以下为援用的内容:
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}
接上去就应当说到php中的正则表达式了:
1.中括号
[0-9]婚配0-9
[a-z]婚配a-z小写字母
[A-Z]婚配A-Z大写字母
[a-zA-Z]婚配一切巨细写字母
可使用ascii来制订更多
2.量词
以下为援用的内容:
p+婚配最少一个含p的字符串
p*陪陪任何包括0个或多个p的字符串
p?婚配任何包括0个或一个p的字符串
p{2}婚配包括2个p的序列的字符串
p{2,3}婚配任何包括2个或3个的字符串
p$婚配任何故p开头的字符串
^p婚配任何故p开首的字符串
[^a-zA-Z]婚配任何不包括a-zA-Z的字符串
p.p婚配任何包括p、接上去是任何字符、再接上去有又是p的字符串
^.{2}$婚配任何值包括2个字符的字符串
<b>(.*)b>婚配任何被<b>>包抄的字符串
p(hp)*婚配任何一个包括p,前面是多个或0个hp的字符串
3.预界说字符局限
以下为援用的内容:
[:alpha:]同[a-zA-Z]
[:alnum:]同[a-zA-Z0-9]
[:cntrl:]婚配掌握字符,好比制表符,反斜杠,退格符
[:digit:]同[0-9]
[:graph:]一切ASCII33~166局限内可以打印的字符
[:lower:]同[a-z]
[:punct:]标点符号
[:upper:]同[A-Z]
[:space:]空白字符,可所以空格、程度制表符、换行、换页、回车
[:xdigit:]十六进制符同[a-fA-F0-9]
空话不多说,直接上我的源码吧,有甚么不懂的可以上百度查查。
以下为援用的内容:
<?php
header("Content-type: text/html; charset=utf-8");
getinfo("http://rss.sina.com.cn/rollnews/news/gn_total.js",1);
getinfo("http://rss.sina.com.cn/rollnews/news/gj_total.js",2);
getinfo("http://rss.sina.com.cn/rollnews/news/sh_total.js",3);
getinfo("http://rss.sina.com.cn/rollnews/sports/sports_total.js",4);
getinfo("http://rss.sina.com.cn/rollnews/tech/tech1_total.js",5);
getinfo("http://rss.sina.com.cn/rollnews/finance/finance1_news_total.js",6);
getinfo("http://rss.sina.com.cn/rollnews/ent/ent_total.js",7);
getinfo("http://rss.sina.com.cn/rollnews/jczs/jczs_total.js",8);
function getinfo($infourl,$catid)
{
$pagecontent=getwebcontent($infourl);
preg_match_all("/title:\"(.*?)\"/", $pagecontent, $match);
$titlearr=$match[1];
preg_match_all("/link:\"(.*?)\"/", $pagecontent, $match);
$urlarr=$match[1];
for ($i=1;$i<count($urlarr);$i++){
echo "go {$titlearr[$i-1]}\n";
$title=iconv("gbk","utf-8",$titlearr[$i-1]);
$content=iconv("gbk","utf-8",getnewscontent($urlarr[$i]));
$content=mysql_escape_string($content);
if(!insertdb($title,$content,$catid)) break;
}
}
function insertdb($title,$content,$catid){
将数据写入你的库
}
function getnewscontent($newsurl){
$newscontent=getwebcontent($newsurl);
preg_match_all("/<div class=\"blkContainerSblkCon\" id=\"artibody\">([\s\S]*?)<!-- publish_helper_end -->/",$newscontent,$match);
$content=preg_replace("/<a.*?<\/a>/si","",$match[1][0]);
$content=preg_replace("/<div style=\"overflow:hidden;zoom:1;\" class=\"otherContent_01\">.*?<\/div>/si","",$content);
$content=preg_replace("/<div class=\"blk-video\">.*?<div class=\"clearcl\"><\/div>/si","",$content);
$content=str_replace("<div style=\"clear:both;height:0;visibility:hiddden;overflow:hidden;\"></div>","",$content);
return $content;
}
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}
?>
然后若何完成对照及时的同步呢,这可以使用windows下的义务企图或linux下的crontab 了,准时(好比非常钟)履行这个法式,如许,你就不再愁网站没有内容了,哈哈,别的自己开了个任务室www.beijingjianzhan.com(北京建站),咱们开辟了一个体系,不但可以收集信息,并且能主动地停止再加工,停止伪原创,如许就更合适搜刮引擎的咀嚼了,让你的网站猖狂地被收录吧,别的可以加我的Q376504340会商手艺性话题。
你的确对PHP有兴趣,那么选择教材也是很重要的。
作者:
小女巫
时间:
2015-2-4 06:24
为了以后维护的方便最好是代码上都加上注释,“予人方便,自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。
作者:
愤怒的大鸟
时间:
2015-2-9 17:29
至于模板嘛,各位高人一直以来就是争论不休,我一只小菜鸟就不加入战团啦,咱们新手还是多学点东西的好。
作者:
飘飘悠悠
时间:
2015-2-9 17:56
为了以后维护的方便最好是代码上都加上注释,“予人方便,自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。
作者:
再现理想
时间:
2015-2-10 22:51
php里的数组为空的时候是不能拿来遍历的;(这个有点低级啊,不过我刚被这个边界问题墨迹了好长一会)
作者:
乐观
时间:
2015-2-23 11:00
在我安装pear包的时候老是提示,缺少某某文件,才发现 那群extension 的排列是应该有一点的顺序,而我安装的版本的排序不是正常的排序。没办法我只好把那群冒号加了上去,只留下我需要使用的扩展。
作者:
飘灵儿
时间:
2015-2-26 15:37
实践是检验自己会不会的真理。
作者:
透明
时间:
2015-3-2 23:39
有位前辈曾经跟我说过,phper 至少要掌握200个函数 编起程序来才能顺畅点,那些不熟悉的函数记不住也要一拿手册就能找到。所以建议新手们没事就看看php的手册(至少array函数和string函数是要记牢的)。
作者:
爱飞
时间:
2015-3-11 07:31
php是动态网站开发的优秀语言,在学习的时候万万不能冒进。在系统的学习前,我认为不应该只是追求实现某种效果,因为即使你复制他人的代码调试成功,实现了你所期望的效果,你也不了解其中的原理。
作者:
谁可相欹
时间:
2015-3-17 23:09
Apache不是非得用80或者8080端口的,我刚开始安得时候就是80端口老占用,就用了个 81端口,结果照常,就是输localhost的时候,应该输入为 localhost:81
作者:
只想知道
时间:
2015-3-25 06:13
刚开始安装php的时候,我图了个省事,把php的扩展全都打开啦(就是把php.ini 那一片 extension 前面的冒号全去掉啦),这样自然有好处,以后不用再需要什么功能再来打开。
作者:
admin
时间:
2015-3-26 16:14
刚开始安装php的时候,我图了个省事,把php的扩展全都打开啦(就是把php.ini 那一片 extension 前面的冒号全去掉啦),这样自然有好处,以后不用再需要什么功能再来打开。
作者:
山那边是海
时间:
2015-4-2 14:41
我要在声明一下:我是个菜鸟!!我对php这门优秀的语言也是知之甚少。但是我要在这里说一下php在网站开发中最常用的几个功能:
作者:
精灵巫婆
时间:
2015-4-4 00:26
使用zendstdio 写代码的的时候,把tab 的缩进设置成4个空格是很有必要的
作者:
兰色精灵
时间:
2015-4-10 08:36
如果你可以写完像留言板这样的程序,那么你可以去一些别人的代码了,
作者:
金色的骷髅
时间:
2015-4-19 22:40
如果你可以写完像留言板这样的程序,那么你可以去一些别人的代码了,
作者:
深爱那片海
时间:
2015-4-21 23:11
在我安装pear包的时候老是提示,缺少某某文件,才发现 那群extension 的排列是应该有一点的顺序,而我安装的版本的排序不是正常的排序。没办法我只好把那群冒号加了上去,只留下我需要使用的扩展。
作者:
蒙在股里
时间:
2015-4-24 23:51
我还是推荐用firefox ,配上firebug 插件调试js能省下不受时间。谷歌的浏览器最好也不少用,因为谷歌的大侠们实在是太天才啦,把一些原来的js代码加了一些特效。
作者:
不帅
时间:
2015-5-1 19:10
作为一个合格的coder 编码的规范是必须,命名方面我推崇“驼峰法”,另外就是自己写的代码最好要带注释,不然时间长了,就算是自己的代码估计看起来都费事,更不用说别人拉。
作者:
分手快乐
时间:
2015-5-3 14:06
刚开始安装php的时候,我图了个省事,把php的扩展全都打开啦(就是把php.ini 那一片 extension 前面的冒号全去掉啦),这样自然有好处,以后不用再需要什么功能再来打开。
作者:
柔情似水
时间:
2015-5-5 01:16
我要在声明一下:我是个菜鸟!!我对php这门优秀的语言也是知之甚少。但是我要在这里说一下php在网站开发中最常用的几个功能:
欢迎光临 仓酷云 (http://ckuyun.com/)
Powered by Discuz! X3.2