it-swarm.cn

除了“Disallow /”之外,还可以控制Internet Archive?

是否有任何机制来控制Internet Archive在网站上存档的内容?我知道不允许所有页面 我可以补充

User-agent: ia_archiver
Disallow: /
  1. 我可以告诉机器人我希望他们每个月或每年一次抓取我的网站吗?

  2. 我有一个网站/页面没有/没有正确存档,因为没有拿起资产。有没有办法告诉Internet Archive bot,如果它要抓住网站需要哪些资产?

13
artlung

注意:这个答案越来越过时了。

互联网档案馆网络收藏的最大贡献者是Alexa Internet。几个月后,Alexa为其目的爬行的材料已经捐赠给了IA。添加问题中提到的disallow规则不会影响这些抓取,但Wayback将“追溯”尊重它们(拒绝访问,材料仍将存档 - 如果您真的想要保留材料,则应排除Alexa的机器人互联网档案馆)。

可能有办法影响Alexa的爬行,但我不熟悉。

由于IA开发了自己的爬行器(Heritrix),他们已经开始自己进行爬行,但那些往往是有针对性的爬行(他们为国会图书馆做选举爬行,并为法国和澳大利亚做过国家爬行等)。他们没有参与Google和Alexa进行的那种持续的世界规模的爬行。 IA最大的爬网是一个抓取20亿页的特殊项目。

由于这些抓取是根据项目特定因素制定的时间表进行操作,因此您不能影响他们访问您网站的频率,或者if他们访问您的网站。

直接影响IA如何以及何时抓取您的网站的唯一方法是使用他们的 Archive-It 服务。该服务允许您指定自定义爬网。最终的数据将(最终)纳入IA的网络集合中。但这是一个付费订阅服务。

8
Kris

大多数搜索引擎都支持“Crawl-delay”指令,但我不知道IA是否支持。你可以尝试一下:

User-agent: ia_archiver
Crawl-delay: 3600

这将把请求之间的延迟限制为3600秒(即1小时),或每月约700个请求。

我不认为#2是可能的 - IA机器人在它认为合适的时候抓住资产。它可能有文件大小限制,以避免使用太多的存储空间。

2
DisgruntledGoat