it-swarm.cn

阻止除大型搜索引擎之外的所有搜索引擎

我想以某种方式阻止除谷歌,雅虎和必应之外的所有搜索引擎(以及谷歌图像等相关网站)抓取我的网站,因为它们消耗了大量的服务器和带宽,但没有带来任何流量。

这很容易做到还是很难?如果有人维护了一个可以粘贴到robots.txt文件中的小型搜索引擎列表来阻止它们,那就太好了。

此外,我意识到我无法阻止忽略robots.txt或网站的抓取工具偷偷摸摸地抓取和爬行,但这不是我想要的。我只是想阻止所有的Altavistas,Hotbots,Lycos(这些甚至还存在)和大学实验爬虫浪费我的时间。

2
Craig

你都尝试了些什么?

使用 网站管理员工具robots.txt生成器 我这样做了:

User-agent: *
Disallow: /

User-agent: Googlebot
Allow: /

但我没有测试过它。

3
delete

真的有多大问题?

你应该关注的机器人是那些不遵守规则并伪装成普通访客的机器人。

搜索引擎的流量是合法的,正如Dan所指出的那样谷歌也是一个小型大学项目。歧视小家伙并不公平,从长远来看可能不聪明。

Kinopiko的答案将起作用,谷歌的网站管理员工具将允许您创建和测试您的robot.txt(网站配置,爬虫访问),但我认为如果来自真正的搜索引擎的流量对您来说是一个问题,它可能是您当前的托管解决方案不是很划算。

3
Sylver

对于那些不遵守规则的人,您可以尝试在日志中找到它们,然后通过IP阻止它们。

一般来说,你可以通过它读取页面太快而无法成为人类来发现机器人。

1
Sruly