我的 ABc0谷歌网站管理员工具显示以下数值:
User-agent: * Allow: /
这是什么意思?我对此知之甚少,所以想请你帮忙。我想让所有的机器人爬行我的网站,这是正确的配置?
该文件将允许所有爬虫访问
这基本上允许所有用户代理(*)到站点的所有部分(/)。
这意味着您允许每个(*)用户代理/爬虫访问您站点的根(/)。
*
/
如果想让每个 bot 都能抓取所有内容,这是在 robots.txt 中指定它的最佳方式:
User-agent: * Disallow:
请注意,Disallow字段有一个空值,这意味着 根据说明书:
Disallow
任何空值,表示可以检索所有 URL。
你的方式(使用 Allow: /而不是 Disallow:)也可以工作,但是 Allow不是 原始 robots.txt 规范的一部分,所以不是所有机器人都支持它(尽管很多流行的机器人支持它,比如谷歌机器人)。也就是说,无法识别的字段必须被忽略,对于不能识别 Allow的机器人来说,结果无论如何在这种情况下都是一样的: 如果没有什么是禁止被爬行的(使用 Disallow) ,那么所有的东西都可以被爬行。 然而,正式地(根据原始规范) ,它是一个无效的记录,因为至少需要一个 Disallow字段:
Allow: /
Disallow:
Allow
记录中至少需要存在一个 Disallow 字段。
我知道这是一个相当古老的问题,并且有一些相当好的答案。但是,为了完整起见,我有两点建议。
根据官方的 文件,有四种方式,您可以允许机器人完全访问您的站点。
指定一个全局匹配器,如@unor 所提到的,带有一个不允许的段。
创建一个不包含任何内容的 /robots.txt文件。默认情况下允许所有类型的 Bots。
/robots.txt
Bots
不要创建一个 /robots.txt完全。它应该产生完全相同的结果作为上述两个。
从 Meta 标签的机器人文档,您可以使用下面的元标记在您的网站上的所有页面,让 Bots知道这些页面不应该被索引。
<META NAME="ROBOTS" CONTENT="NOINDEX">
为了将其应用到整个站点,您必须为所有页面添加这个 meta 标记。并且这个标签应该严格地放在页面的 HEAD标签下面。更多关于这个元标记 给你的信息。
HEAD
我觉得你很好,你让所有的页面爬行 用户代理: * 批准:/