如何configurationrobots.txt以允许一切?
Google网站站长工具中的我的robots.txt
显示以下值:
User-agent: * Allow: /
这是什么意思? 我没有足够的知识,所以寻求你的帮助。 我想让所有机器人抓取我的网站,这是正确的configuration?
该文件将允许所有爬虫访问
User-agent: * Allow: /
这基本上允许所有用户代理(*)到网站的所有部分(/)。
如果您想允许每个机器人抓取所有内容,这是在robots.txt中指定它的最佳方法:
User-agent: * Disallow:
请注意, Disallow
字段有一个空值,这意味着根据规范 :
任何空值,表示可以检索所有的URL。
你的方式( Allow: /
而不是Disallow:
也可以工作,但Allow
不是原始的robots.txt规范的一部分 ,所以它不被所有的机器人支持(很多stream行的机器人都支持它, 就像Googlebot一样 )。 也就是说,无法识别的字段必须被忽略,而对于不认可Allow
机器人来说,结果在这种情况下也是一样的:如果没有任何东西被禁止被抓取(使用Disallow
),所有的东西都被允许被抓取。
但是,正式(根据原始规范),这是一个无效的logging,因为至less需要一个Disallow
字段:
logging中至less需要有一个Disallow字段。
这意味着您允许每个( *
)用户代理/爬虫访问您的网站的根( /
)。 你还好。