|
马上注册,结交更多好友,享用更多功能,让你轻松玩转社区。
您需要 登录 才可以下载或查看,没有帐号?立即注册
x
无论图形界面发展到什么水平这个原理是不会变的,Linux命令有许多强大的功能:从简单的磁盘操作、文件存取、到进行复杂的多媒体图象和流媒体文件的制作。
代码以下:
#全局设置
limit_req_zone$anti_spiderzone=anti_spider:10mrate=15r/m;
#某个server中
limit_reqzone=anti_spiderburst=30nodelay;
if($http_user_agent~*"xxspider|xxbot"){
set$anti_spider$http_user_agent;
}
凌驾设置的限制频次,就会给spider一个503。
上述设置具体注释请自行google下,详细的spider/bot称号请自界说。
附:nginx中克制屏障收集爬虫
代码以下:
server{
listen80;
server_namewww.xxx.com;
#charsetkoi8-r;
#access_loglogs/host.access.logmain;
#location/{
#roothtml;
#indexindex.htmlindex.htm;
#}
if($http_user_agent~*"qihoobot|Baiduspider|Googlebot|Googlebot-Mobile|Googlebot-Image|Mediapartners-Google|Adsbot-Google|Feedfetcher-Google|Yahoo!Slurp|Yahoo!SlurpChina|YoudaoBot|Sosospider|Sogouspider|Sogouwebspider|MSNBot|ia_archiver|TomatoBot"){
return403;
}
location~^/(.*)${
proxy_passhttp://localhost:8080;
proxy_redirectoff;
proxy_set_headerHost$host;
proxy_set_headerX-Real-IP$remote_addr;
proxy_set_headerX-Forwarded-For$proxy_add_x_forwarded_for;
client_max_body_size10m;
client_body_buffer_size128k;
proxy_connect_timeout90;
proxy_send_timeout90;
proxy_read_timeout90;
proxy_buffer_size4k;
proxy_buffers432k;
proxy_busy_buffers_size64k;
proxy_temp_file_write_size64k;
}
#error_page404/404.html;
#redirectservererrorpagestothestaticpage/50x.html
#
error_page500502503504/50x.html;
location=/50x.html{
roothtml;
}
#proxythePHPscriptstoApachelisteningon127.0.0.1:80
#
#location~.php${
#proxy_passhttp://127.0.0.1;
#}
#passthePHPscriptstoFastCGIserverlisteningon127.0.0.1:9000
#
#location~.php${
#roothtml;
#fastcgi_pass127.0.0.1:9000;
#fastcgi_indexindex.php;
#fastcgi_paramSCRIPT_FILENAME/scripts$fastcgi_script_name;
#includefastcgi_params;
#}
#denyaccessto.htaccessfiles,ifApachesdocumentroot
#concurswithnginxsone
#
#location~/.ht{
#denyall;
#}
}
能够用curl测试一下
代码以下:
curl-I-A"qihoobot"www.xxx.com
给你装的系统里为ubuntu12.04,它已经封装的很臃肿了,但是考虑到你没有很多时间投入其中,所以给你装了它,但是怎么用它提高开发效率,需要你在学习的过程中不断总结; |
|