不帅 发表于 2015-1-16 11:39:21

来谈谈:apache克制搜刮引擎收录、收集爬虫收罗的设置办法

不同版本的Linux命令数量不一样,这里笔者把它们中比较重要的和使用频率最多的命令。
Apache中克制收集爬虫,之前设置了良多次的,但老是不起感化,本来是是写错了,不克不及写到Dirctory中,要写到Location中
代码以下:

<Location/>
SetEnvIfNoCaseUser-Agent"spider"bad_bot
BrowserMatchNoCasebingbotbad_bot
BrowserMatchNoCaseGooglebotbad_bot
OrderDeny,Allow
#上面是克制soso的爬虫
Denyfrom124.115.4.124.115.0.64.69.34.135216.240.136.125218.15.197.69155.69.160.9958.60.13.121.14.96.58.60.14.58.61.164.202.108.7.209
Denyfromenv=bad_bot
</Location>


这是克制了一切包括spider字符的爬虫。
假如要针对性的克制爬虫,改成准确婚配的爬虫字符串,假如bingbot、Googlebot等等

安装和登录命令:login、shutdown、halt、reboot、mount、umount、chsh

谁可相欹 发表于 2015-1-18 08:02:57

为什么要学Linux呢?每个人都有不同的看法,下面我说说自己的感想吧。?

因胸联盟 发表于 2015-1-24 12:49:35

熟读写基础知识,学得会不如学得牢。

柔情似水 发表于 2015-2-1 16:14:09

把这个问题放在其他Linux社区请求帮助也是一种选择。如果Linux得不到答案,请不要以为我们觉得无法帮助你。有时只是看到你问题的人不知道答案罢了。这时换一个社区是不错的选择。

冷月葬花魂 发表于 2015-2-7 09:48:59

我想即使Linux高手也很难快速准确精练的回答你。

海妖 发表于 2015-3-6 21:36:48

随着Linux技术的更加成熟、完善,其应用领域和市场份额继续快速增大。目前,其主要应用领域是服务器系统和嵌入式系统。然而,它的足迹已遍布各个行业,几乎无处不在。

只想知道 发表于 2015-3-13 22:08:49

放手去搞。尽量不要提问,运用搜索找答案,或者看wiki,从原理上理解操作系统的本质,而不是满足于使用几个技巧。尽量看英文资料。

小妖女 发表于 2015-3-13 22:08:51

如果你想深入学习Linux,看不懂因为文档实在是太难了。写的最好的、最全面的文档都是英语写的,最先发布的技术信息也都是用英语写的。

愤怒的大鸟 发表于 2015-3-20 21:10:48

我学习Linux的心得体会 ,希望对大家的学习有所帮助,由于水平有限,本文难免有所欠缺,望请指正。
页: [1]
查看完整版本: 来谈谈:apache克制搜刮引擎收录、收集爬虫收罗的设置办法