仓酷云

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 1299|回复: 20
打印 上一主题 下一主题

[学习教程] PHP教程之PHP扩大curl和正则表达式轻松收集旧事

[复制链接]
精灵巫婆 该用户已被删除
跳转到指定楼层
楼主
发表于 2015-2-3 23:44:19 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
理解网站这一概念之后不难看出,任何网站都是由网页组成的,也就是说想完成网站,必须先学会做网页,因此必须要掌握了HTML,才能为今后制作网站打下基础。   </p> 收集已不是甚么新名词了,良多站长为了省事,也局限于人力的缺少,利用法式来给本人的网站添砖加瓦,好比自己的团体网站www.xxfsw.com也收集了大批的旧事,那末假如完成呢?明天咱们应用php来完成这个功效。
谈到收集,咱们不能不说两个器材,第一个是若何获得近程网站的源代码,这个可以经由过程php的一个扩大curl来获得,另外一个是假如去婚配你需求的信息,这个的处理举措是正则表达式。
Windows下开启curl的办法以下:
1、拷贝PHP目次中的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll文件到 system32 目次。
2、修正php.ini:设置装备摆设好 extension_dir ,去失落 extension = php_curl.dll 后面的分号。
3、重起apache。
Linux下开启curl的办法以下:
进入装置 原php 的源码目次,
cd ext
cd curl
phpize
./configure --with-curl =DIR
make
就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。
复制curl .so文件到extensions的设置装备摆设目次,修正php .ini就行了。
然后你就能够使用curl来获得到指定url的网页源码了,这里给人人一个封装好的函数:
  以下为援用的内容:
function getwebcontent($url){
    $ch = curl_init();
    $timeout = 10;
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
    $contents = trim(curl_exec($ch));
    curl_close($ch);
    return  $contents;
}
接上去就应当说到php中的正则表达式了:
1.中括号
[0-9]婚配0-9
[a-z]婚配a-z小写字母
[A-Z]婚配A-Z大写字母
[a-zA-Z]婚配一切巨细写字母
可使用ascii来制订更多
2.量词
  以下为援用的内容:
p+婚配最少一个含p的字符串  
p*陪陪任何包括0个或多个p的字符串  
p?婚配任何包括0个或一个p的字符串  
p{2}婚配包括2个p的序列的字符串  
p{2,3}婚配任何包括2个或3个的字符串  
p$婚配任何故p开头的字符串  
^p婚配任何故p开首的字符串  
[^a-zA-Z]婚配任何不包括a-zA-Z的字符串  
p.p婚配任何包括p、接上去是任何字符、再接上去有又是p的字符串  
^.{2}$婚配任何值包括2个字符的字符串  
<b>(.*)b>婚配任何被<b>>包抄的字符串  
p(hp)*婚配任何一个包括p,前面是多个或0个hp的字符串
3.预界说字符局限
  以下为援用的内容:
[:alpha:]同[a-zA-Z]  
[:alnum:]同[a-zA-Z0-9]  
[:cntrl:]婚配掌握字符,好比制表符,反斜杠,退格符  
[:digit:]同[0-9]  
[:graph:]一切ASCII33~166局限内可以打印的字符  
[:lower:]同[a-z]  
[:punct:]标点符号  
[:upper:]同[A-Z]  
[:space:]空白字符,可所以空格、程度制表符、换行、换页、回车  
[:xdigit:]十六进制符同[a-fA-F0-9]
空话不多说,直接上我的源码吧,有甚么不懂的可以上百度查查。
  以下为援用的内容:
<?php
header("Content-type: text/html; charset=utf-8");
getinfo("http://rss.sina.com.cn/rollnews/news/gn_total.js",1);
getinfo("http://rss.sina.com.cn/rollnews/news/gj_total.js",2);
getinfo("http://rss.sina.com.cn/rollnews/news/sh_total.js",3);
getinfo("http://rss.sina.com.cn/rollnews/sports/sports_total.js",4);
getinfo("http://rss.sina.com.cn/rollnews/tech/tech1_total.js",5);
getinfo("http://rss.sina.com.cn/rollnews/finance/finance1_news_total.js",6);
getinfo("http://rss.sina.com.cn/rollnews/ent/ent_total.js",7);
getinfo("http://rss.sina.com.cn/rollnews/jczs/jczs_total.js",8);
function getinfo($infourl,$catid)
{
    $pagecontent=getwebcontent($infourl);
    preg_match_all("/title:\"(.*?)\"/", $pagecontent, $match);
    $titlearr=$match[1];
    preg_match_all("/link:\"(.*?)\"/", $pagecontent, $match);
    $urlarr=$match[1];
    for ($i=1;$i<count($urlarr);$i++){
        echo "go {$titlearr[$i-1]}\n";
        $title=iconv("gbk","utf-8",$titlearr[$i-1]);
        $content=iconv("gbk","utf-8",getnewscontent($urlarr[$i]));
        $content=mysql_escape_string($content);
        if(!insertdb($title,$content,$catid)) break;
    }
}
function insertdb($title,$content,$catid){   
    将数据写入你的库
}
function getnewscontent($newsurl){
    $newscontent=getwebcontent($newsurl);
    preg_match_all("/<div class=\"blkContainerSblkCon\" id=\"artibody\">([\s\S]*?)<!-- publish_helper_end -->/",$newscontent,$match);
    $content=preg_replace("/<a.*?<\/a>/si","",$match[1][0]);
    $content=preg_replace("/<div style=\"overflow:hidden;zoom:1;\" class=\"otherContent_01\">.*?<\/div>/si","",$content);
    $content=preg_replace("/<div class=\"blk-video\">.*?<div class=\"clearcl\"><\/div>/si","",$content);
    $content=str_replace("<div style=\"clear:both;height:0;visibility:hiddden;overflow:hidden;\"></div>","",$content);
    return $content;
}
function getwebcontent($url){
    $ch = curl_init();
    $timeout = 10;
    curl_setopt($ch, CURLOPT_URL, $url);
    curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
    curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
    curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
    $contents = trim(curl_exec($ch));
    curl_close($ch);
    return  $contents;
}
?>
然后若何完成对照及时的同步呢,这可以使用windows下的义务企图或linux下的crontab 了,准时(好比非常钟)履行这个法式,如许,你就不再愁网站没有内容了,哈哈,别的自己开了个任务室www.beijingjianzhan.com(北京建站),咱们开辟了一个体系,不但可以收集信息,并且能主动地停止再加工,停止伪原创,如许就更合适搜刮引擎的咀嚼了,让你的网站猖狂地被收录吧,别的可以加我的Q376504340会商手艺性话题。
你的确对PHP有兴趣,那么选择教材也是很重要的。
小女巫 该用户已被删除
沙发
发表于 2015-2-4 06:24:28 | 只看该作者
为了以后维护的方便最好是代码上都加上注释,“予人方便,自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。
愤怒的大鸟 该用户已被删除
板凳
发表于 2015-2-9 17:29:49 | 只看该作者
至于模板嘛,各位高人一直以来就是争论不休,我一只小菜鸟就不加入战团啦,咱们新手还是多学点东西的好。
飘飘悠悠 该用户已被删除
地板
发表于 2015-2-9 17:56:59 | 只看该作者
为了以后维护的方便最好是代码上都加上注释,“予人方便,自己方便”。此外开发文档什么的最好都弄齐全。我觉得这是程序员必备的素质。虽然会消耗点很多的时间。但是确实是非常有必要的。
再现理想 该用户已被删除
5#
发表于 2015-2-10 22:51:49 | 只看该作者
php里的数组为空的时候是不能拿来遍历的;(这个有点低级啊,不过我刚被这个边界问题墨迹了好长一会)
乐观 该用户已被删除
6#
发表于 2015-2-23 11:00:16 | 只看该作者
在我安装pear包的时候老是提示,缺少某某文件,才发现 那群extension 的排列是应该有一点的顺序,而我安装的版本的排序不是正常的排序。没办法我只好把那群冒号加了上去,只留下我需要使用的扩展。
飘灵儿 该用户已被删除
7#
发表于 2015-2-26 15:37:26 | 只看该作者
实践是检验自己会不会的真理。
透明 该用户已被删除
8#
发表于 2015-3-2 23:39:37 | 只看该作者
有位前辈曾经跟我说过,phper 至少要掌握200个函数 编起程序来才能顺畅点,那些不熟悉的函数记不住也要一拿手册就能找到。所以建议新手们没事就看看php的手册(至少array函数和string函数是要记牢的)。
爱飞 该用户已被删除
9#
发表于 2015-3-11 07:31:44 | 只看该作者
php是动态网站开发的优秀语言,在学习的时候万万不能冒进。在系统的学习前,我认为不应该只是追求实现某种效果,因为即使你复制他人的代码调试成功,实现了你所期望的效果,你也不了解其中的原理。
谁可相欹 该用户已被删除
10#
发表于 2015-3-17 23:09:20 | 只看该作者
Apache不是非得用80或者8080端口的,我刚开始安得时候就是80端口老占用,就用了个 81端口,结果照常,就是输localhost的时候,应该输入为 localhost:81
只想知道 该用户已被删除
11#
发表于 2015-3-25 06:13:08 | 只看该作者
刚开始安装php的时候,我图了个省事,把php的扩展全都打开啦(就是把php.ini 那一片 extension 前面的冒号全去掉啦),这样自然有好处,以后不用再需要什么功能再来打开。
admin 该用户已被删除
12#
发表于 2015-3-26 16:14:04 | 只看该作者
刚开始安装php的时候,我图了个省事,把php的扩展全都打开啦(就是把php.ini 那一片 extension 前面的冒号全去掉啦),这样自然有好处,以后不用再需要什么功能再来打开。
山那边是海 该用户已被删除
13#
发表于 2015-4-2 14:41:00 | 只看该作者
我要在声明一下:我是个菜鸟!!我对php这门优秀的语言也是知之甚少。但是我要在这里说一下php在网站开发中最常用的几个功能:
精灵巫婆 该用户已被删除
14#
 楼主| 发表于 2015-4-4 00:26:47 | 只看该作者
使用zendstdio 写代码的的时候,把tab 的缩进设置成4个空格是很有必要的
兰色精灵 该用户已被删除
15#
发表于 2015-4-10 08:36:29 | 只看该作者
如果你可以写完像留言板这样的程序,那么你可以去一些别人的代码了,
金色的骷髅 该用户已被删除
16#
发表于 2015-4-19 22:40:37 | 只看该作者
如果你可以写完像留言板这样的程序,那么你可以去一些别人的代码了,
深爱那片海 该用户已被删除
17#
发表于 2015-4-21 23:11:50 | 只看该作者
在我安装pear包的时候老是提示,缺少某某文件,才发现 那群extension 的排列是应该有一点的顺序,而我安装的版本的排序不是正常的排序。没办法我只好把那群冒号加了上去,只留下我需要使用的扩展。
蒙在股里 该用户已被删除
18#
发表于 2015-4-24 23:51:09 | 只看该作者
我还是推荐用firefox ,配上firebug 插件调试js能省下不受时间。谷歌的浏览器最好也不少用,因为谷歌的大侠们实在是太天才啦,把一些原来的js代码加了一些特效。
不帅 该用户已被删除
19#
发表于 2015-5-1 19:10:15 | 只看该作者
作为一个合格的coder 编码的规范是必须,命名方面我推崇“驼峰法”,另外就是自己写的代码最好要带注释,不然时间长了,就算是自己的代码估计看起来都费事,更不用说别人拉。
分手快乐 该用户已被删除
20#
发表于 2015-5-3 14:06:20 | 只看该作者
刚开始安装php的时候,我图了个省事,把php的扩展全都打开啦(就是把php.ini 那一片 extension 前面的冒号全去掉啦),这样自然有好处,以后不用再需要什么功能再来打开。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|仓酷云 鄂ICP备14007578号-2

GMT+8, 2024-11-14 13:03

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表