如何配置 robots.txt 以允许所有内容？

小开

该文件将允许所有爬虫访问

User-agent: *
Allow: /

这基本上允许所有用户代理(*)到站点的所有部分(/)。

小开

这意味着您允许每个(*)用户代理/爬虫访问您站点的根(/)。

小开

如果想让每个 bot 都能抓取所有内容，这是在 robots.txt 中指定它的最佳方式:

User-agent: *
Disallow:

请注意，Disallow字段有一个空值，这意味着根据说明书:

任何空值，表示可以检索所有 URL。

你的方式(使用 Allow: /而不是 Disallow:)也可以工作，但是 Allow不是原始 robots.txt 规范的一部分，所以不是所有机器人都支持它(尽管很多流行的机器人支持它，比如谷歌机器人)。也就是说，无法识别的字段必须被忽略，对于不能识别 Allow的机器人来说，结果无论如何在这种情况下都是一样的: 如果没有什么是禁止被爬行的(使用 Disallow) ，那么所有的东西都可以被爬行。
然而，正式地(根据原始规范) ，它是一个无效的记录，因为至少需要一个 Disallow字段:

记录中至少需要存在一个 Disallow 字段。

小开

我知道这是一个相当古老的问题，并且有一些相当好的答案。但是，为了完整起见，我有两点建议。

根据官方的文件，有四种方式，您可以允许机器人完全访问您的站点。

清洁:

指定一个全局匹配器，如@unor 所提到的，带有一个不允许的段。

User-agent: *
Disallow:

黑客攻击:

创建一个不包含任何内容的 /robots.txt文件。默认情况下允许所有类型的 Bots。

我不在乎:

不要创建一个 /robots.txt完全。它应该产生完全相同的结果作为上述两个。

丑陋:

从 Meta 标签的机器人文档，您可以使用下面的元标记在您的网站上的所有页面，让 Bots知道这些页面不应该被索引。

<META NAME="ROBOTS" CONTENT="NOINDEX">

为了将其应用到整个站点，您必须为所有页面添加这个 meta 标记。并且这个标签应该严格地放在页面的 HEAD标签下面。更多关于这个元标记给你的信息。

小开

我觉得你很好，你让所有的页面爬行用户代理: * 批准:/