|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
理解网站这一概念之后不难看出,任何网站都是由网页组成的,也就是说想完成网站,必须先学会做网页,因此必须要掌握了HTML,才能为今后制作网站打下基础。 </p> 收集已不是甚么新名词了,良多站长为了省事,也局限于人力的缺少,利用法式来给本人的网站添砖加瓦,好比自己的团体网站www.xxfsw.com也收集了大批的旧事,那末假如完成呢?明天咱们应用php来完成这个功效。
谈到收集,咱们不能不说两个器材,第一个是若何获得近程网站的源代码,这个可以经由过程php的一个扩大curl来获得,另外一个是假如去婚配你需求的信息,这个的处理举措是正则表达式。
Windows下开启curl的办法以下:
1、拷贝PHP目次中的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll文件到 system32 目次。
2、修正php.ini:设置装备摆设好 extension_dir ,去失落 extension = php_curl.dll 后面的分号。
3、重起apache。
Linux下开启curl的办法以下:
进入装置 原php 的源码目次,
cd ext
cd curl
phpize
./configure --with-curl =DIR
make
就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。
复制curl .so文件到extensions的设置装备摆设目次,修正php .ini就行了。
然后你就能够使用curl来获得到指定url的网页源码了,这里给人人一个封装好的函数:
以下为援用的内容:
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}
接上去就应当说到php中的正则表达式了:
1.中括号
[0-9]婚配0-9
[a-z]婚配a-z小写字母
[A-Z]婚配A-Z大写字母
[a-zA-Z]婚配一切巨细写字母
可使用ascii来制订更多
2.量词
以下为援用的内容:
p+婚配最少一个含p的字符串
p*陪陪任何包括0个或多个p的字符串
p?婚配任何包括0个或一个p的字符串
p{2}婚配包括2个p的序列的字符串
p{2,3}婚配任何包括2个或3个的字符串
p$婚配任何故p开头的字符串
^p婚配任何故p开首的字符串
[^a-zA-Z]婚配任何不包括a-zA-Z的字符串
p.p婚配任何包括p、接上去是任何字符、再接上去有又是p的字符串
^.{2}$婚配任何值包括2个字符的字符串
<b>(.*)b>婚配任何被<b>>包抄的字符串
p(hp)*婚配任何一个包括p,前面是多个或0个hp的字符串
3.预界说字符局限
以下为援用的内容:
[:alpha:]同[a-zA-Z]
[:alnum:]同[a-zA-Z0-9]
[:cntrl:]婚配掌握字符,好比制表符,反斜杠,退格符
[:digit:]同[0-9]
[:graph:]一切ASCII33~166局限内可以打印的字符
[:lower:]同[a-z]
[:punct:]标点符号
[:upper:]同[A-Z]
[:space:]空白字符,可所以空格、程度制表符、换行、换页、回车
[:xdigit:]十六进制符同[a-fA-F0-9]
空话不多说,直接上我的源码吧,有甚么不懂的可以上百度查查。
以下为援用的内容:
<?php
header("Content-type: text/html; charset=utf-8");
getinfo("http://rss.sina.com.cn/rollnews/news/gn_total.js",1);
getinfo("http://rss.sina.com.cn/rollnews/news/gj_total.js",2);
getinfo("http://rss.sina.com.cn/rollnews/news/sh_total.js",3);
getinfo("http://rss.sina.com.cn/rollnews/sports/sports_total.js",4);
getinfo("http://rss.sina.com.cn/rollnews/tech/tech1_total.js",5);
getinfo("http://rss.sina.com.cn/rollnews/finance/finance1_news_total.js",6);
getinfo("http://rss.sina.com.cn/rollnews/ent/ent_total.js",7);
getinfo("http://rss.sina.com.cn/rollnews/jczs/jczs_total.js",8);
function getinfo($infourl,$catid)
{
$pagecontent=getwebcontent($infourl);
preg_match_all("/title:\"(.*?)\"/", $pagecontent, $match);
$titlearr=$match[1];
preg_match_all("/link:\"(.*?)\"/", $pagecontent, $match);
$urlarr=$match[1];
for ($i=1;$i<count($urlarr);$i++){
echo "go {$titlearr[$i-1]}\n";
$title=iconv("gbk","utf-8",$titlearr[$i-1]);
$content=iconv("gbk","utf-8",getnewscontent($urlarr[$i]));
$content=mysql_escape_string($content);
if(!insertdb($title,$content,$catid)) break;
}
}
function insertdb($title,$content,$catid){
将数据写入你的库
}
function getnewscontent($newsurl){
$newscontent=getwebcontent($newsurl);
preg_match_all("/<div class=\"blkContainerSblkCon\" id=\"artibody\">([\s\S]*?)<!-- publish_helper_end -->/",$newscontent,$match);
$content=preg_replace("/<a.*?<\/a>/si","",$match[1][0]);
$content=preg_replace("/<div style=\"overflow:hidden;zoom:1;\" class=\"otherContent_01\">.*?<\/div>/si","",$content);
$content=preg_replace("/<div class=\"blk-video\">.*?<div class=\"clearcl\"><\/div>/si","",$content);
$content=str_replace("<div style=\"clear:both;height:0;visibility:hiddden;overflow:hidden;\"></div>","",$content);
return $content;
}
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}
?>
然后若何完成对照及时的同步呢,这可以使用windows下的义务企图或linux下的crontab 了,准时(好比非常钟)履行这个法式,如许,你就不再愁网站没有内容了,哈哈,别的自己开了个任务室www.beijingjianzhan.com(北京建站),咱们开辟了一个体系,不但可以收集信息,并且能主动地停止再加工,停止伪原创,如许就更合适搜刮引擎的咀嚼了,让你的网站猖狂地被收录吧,别的可以加我的Q376504340会商手艺性话题。
你的确对PHP有兴趣,那么选择教材也是很重要的。 |
|