如何配置 robots.txt 以允许所有内容?

我的 ABc0谷歌网站管理员工具显示以下数值:

User-agent: *
Allow: /

这是什么意思?我对此知之甚少,所以想请你帮忙。我想让所有的机器人爬行我的网站,这是正确的配置?

149603 次浏览

该文件将允许所有爬虫访问

User-agent: *
Allow: /

这基本上允许所有用户代理(*)到站点的所有部分(/)。

这意味着您允许每个(*)用户代理/爬虫访问您站点的根(/)。

如果想让每个 bot 都能抓取所有内容,这是在 robots.txt 中指定它的最佳方式:

User-agent: *
Disallow:

请注意,Disallow字段有一个空值,这意味着 根据说明书:

任何空值,表示可以检索所有 URL。


你的方式(使用 Allow: /而不是 Disallow:)也可以工作,但是 Allow不是 原始 robots.txt 规范的一部分,所以不是所有机器人都支持它(尽管很多流行的机器人支持它,比如谷歌机器人)。也就是说,无法识别的字段必须被忽略,对于不能识别 Allow的机器人来说,结果无论如何在这种情况下都是一样的: 如果没有什么是禁止被爬行的(使用 Disallow) ,那么所有的东西都可以被爬行。
然而,正式地(根据原始规范) ,它是一个无效的记录,因为至少需要一个 Disallow字段:

记录中至少需要存在一个 Disallow 字段。

我知道这是一个相当古老的问题,并且有一些相当好的答案。但是,为了完整起见,我有两点建议。

根据官方的 文件,有四种方式,您可以允许机器人完全访问您的站点。

清洁:

指定一个全局匹配器,如@unor 所提到的,带有一个不允许的段。

User-agent: *
Disallow:

黑客攻击:

创建一个不包含任何内容的 /robots.txt文件。默认情况下允许所有类型的 Bots

我不在乎:

不要创建一个 /robots.txt完全。它应该产生完全相同的结果作为上述两个。

丑陋:

Meta 标签的机器人文档,您可以使用下面的元标记在您的网站上的所有页面,让 Bots知道这些页面不应该被索引。

<META NAME="ROBOTS" CONTENT="NOINDEX">

为了将其应用到整个站点,您必须为所有页面添加这个 meta 标记。并且这个标签应该严格地放在页面的 HEAD标签下面。更多关于这个元标记 给你的信息。

我觉得你很好,你让所有的页面爬行 用户代理: * 批准:/