仓酷云

 找回密码
 立即注册
搜索
热搜: 活动 交友 discuz
查看: 364|回复: 7
打印 上一主题 下一主题

[其他Linux] 来一发Nginx限定搜刮引擎爬虫频次、克制屏障收集爬虫设置示例

[复制链接]
爱飞 该用户已被删除
跳转到指定楼层
楼主
发表于 2015-1-16 12:11:57 | 只看该作者 回帖奖励 |倒序浏览 |阅读模式

马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。

您需要 登录 才可以下载或查看,没有帐号?立即注册

x
无论图形界面发展到什么水平这个原理是不会变的,Linux命令有许多强大的功能:从简单的磁盘操作、文件存取、到进行复杂的多媒体图象和流媒体文件的制作。
代码以下:

#全局设置
limit_req_zone$anti_spiderzone=anti_spider:10mrate=15r/m;
#某个server中
limit_reqzone=anti_spiderburst=30nodelay;
if($http_user_agent~*"xxspider|xxbot"){
set$anti_spider$http_user_agent;
}

凌驾设置的限制频次,就会给spider一个503。
上述设置具体注释请自行google下,详细的spider/bot称号请自界说。
附:nginx中克制屏障收集爬虫
代码以下:

server{
listen80;
server_namewww.xxx.com;

#charsetkoi8-r;

#access_loglogs/host.access.logmain;

#location/{
#roothtml;
#indexindex.htmlindex.htm;
#}
if($http_user_agent~*"qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo!Slurp|Yahoo!SlurpChina|YoudaoBot|Sosospider|Sogouspider|Sogouwebspider|MSNBot|ia_archiver|TomatoBot"){
return403;
}

location~^/(.*)${
proxy_passhttp://localhost:8080;
proxy_redirectoff;
proxy_set_headerHost$host;
proxy_set_headerX-Real-IP$remote_addr;
proxy_set_headerX-Forwarded-For$proxy_add_x_forwarded_for;
client_max_body_size10m;
client_body_buffer_size128k;
proxy_connect_timeout90;
proxy_send_timeout90;
proxy_read_timeout90;
proxy_buffer_size4k;
proxy_buffers432k;
proxy_busy_buffers_size64k;
proxy_temp_file_write_size64k;
}

#error_page404/404.html;

#redirectservererrorpagestothestaticpage/50x.html
#
error_page500502503504/50x.html;
location=/50x.html{
roothtml;
}

#proxythePHPscriptstoApachelisteningon127.0.0.1:80
#
#location~.php${
#proxy_passhttp://127.0.0.1;
#}

#passthePHPscriptstoFastCGIserverlisteningon127.0.0.1:9000
#
#location~.php${
#roothtml;
#fastcgi_pass127.0.0.1:9000;
#fastcgi_indexindex.php;
#fastcgi_paramSCRIPT_FILENAME/scripts$fastcgi_script_name;
#includefastcgi_params;
#}

#denyaccessto.htaccessfiles,ifApachesdocumentroot
#concurswithnginxsone
#
#location~/.ht{
#denyall;
#}
}



能够用curl测试一下
代码以下:
curl-I-A"qihoobot"www.xxx.com


给你装的系统里为ubuntu12.04,它已经封装的很臃肿了,但是考虑到你没有很多时间投入其中,所以给你装了它,但是怎么用它提高开发效率,需要你在学习的过程中不断总结;
海妖 该用户已被删除
沙发
发表于 2015-1-18 09:22:09 | 只看该作者
另外Linux上也有很多的应用软件,安装运行了这些软件后,你就可以在Linux上编辑文档、图?片,玩游戏、上网、播放多媒体文件等。
不帅 该用户已被删除
板凳
发表于 2015-1-24 15:12:49 | 只看该作者
让我树立了很大的信心学好这门课程,也学到了不少专业知识和技能。?
飘灵儿 该用户已被删除
地板
发表于 2015-2-1 19:04:51 | 只看该作者
就这样,我们一边上OS理论课,一边上这个实验,这样挺互补的,老师讲课,一步一步地布置任务
再现理想 该用户已被删除
5#
发表于 2015-2-7 15:10:31 | 只看该作者
如果上面的措施没有解决问题,此时你就需要Linux社区的帮助了。 Linux的使用者一般都是专业人士,他们有着很好的电脑背景且愿意协助他人。
admin 该用户已被删除
6#
发表于 2015-3-7 02:11:36 | 只看该作者
首先Linux是开源的,这也是最主要的原因,想学windows,Unix,对不起我们没源代码。也正是因为这样,Linux才能够像滚雪球一样越滚越大,发展到现在这种规模。
蒙在股里 该用户已被删除
7#
发表于 2015-3-14 09:34:40 | 只看该作者
应对Linux的发展历史和特点有所了解,Linux是抢占式多任务多用户操作系统,Linux最大的优点在于其作为服务器的强大功能,同时支持多种应用程序及开发工具。
谁可相欹 该用户已被删除
8#
发表于 2015-3-21 02:33:31 | 只看该作者
你需要提供精确有效的信息。Linux这并不是要求你简单的把成吨的出错代码或者数据完全转储摘录到你的提问中。
您需要登录后才可以回帖 登录 | 立即注册

本版积分规则

QQ|Archiver|手机版|仓酷云 鄂ICP备14007578号-2

GMT+8, 2024-12-24 03:28

Powered by Discuz! X3.2

© 2001-2013 Comsenz Inc.

快速回复 返回顶部 返回列表