it-swarm.cn

如何配置robots.txt以允许除了几个目录之外的网站爬行?

Robots.txt的最佳初始或一般设置是什么,以允许搜索引擎通过该网站,但可能限制几个文件夹?

是否应该始终使用常规设置?

7
Mike

Google网站管理员工具有一个名为“抓取工具”的部分

本部分允许您轻松创建robots.txt

例如,除了博客之外的所有内容,名为test的文件夹,您的robot.txt看起来就像

User-agent: *
Disallow: /Test
Allow: /
3
corymathews

如果您没有任何特殊要求,最好的配置是什么都没有。 (尽管您可能至少想添加一个空白文件,以避免404填满您的错误日志。)

要阻止站点上的目录,请使用“Disallow”子句:

User-agent: *
Disallow: /example/

还有一个'Allow'子句覆盖了之前的'Disallow'子句。因此,如果你不允许“示例”文件夹,你可能希望允许像'example/foobar'这样的文件夹。

请记住,robots.txt并不会阻止任何人访问这些页面,如果他们愿意,那么如果某些页面保持秘密,您应该将它们隐藏在某种身份验证(即用户名/密码)之后。

许多robots.txt文件中可能存在的另一个指令是“Sitemap”,它指定了XML站点地图的位置(如果有的话)。把它放在一条线上:

Sitemap: /sitemap.xml

官方robots.txt网站 有更多关于各种选项的信息。但总的来说,绝大多数网站都需要很少的配置。

1
DisgruntledGoat

以下是您需要了解的关于 robots.txt文件 的所有信息

0
Jason