Web 在理解如何阻止robot.txt上的某些URL时遇到问题

Web 在理解如何阻止robot.txt上的某些URL时遇到问题,web,robots.txt,googlebot,Web,Robots.txt,Googlebot,问题是这个。我在系统上有一些URL,它们有这种模式 http://foo-editable.mydomain.com/menu1/option2 http://bar-editable.mydomain.com/menu3/option1 我想在robot.txt文件中指出,它们不应该被爬网。但是,我不确定这种模式是否正确: User-agent: Googlebot Disallow: -editable.mydomain.com/* 它能像我期望的那样工作吗?我想你必须这样编码 Use

问题是这个。我在系统上有一些URL,它们有这种模式

http://foo-editable.mydomain.com/menu1/option2
http://bar-editable.mydomain.com/menu3/option1
我想在robot.txt文件中指出,它们不应该被爬网。但是,我不确定这种模式是否正确:

User-agent: Googlebot 
Disallow: -editable.mydomain.com/*

它能像我期望的那样工作吗?

我想你必须这样编码

User-agent: googlebot 
Disallow: /*-editable.mydomain.com/

不能保证任何机器人都会处理,但我认为谷歌机器人会处理。

您不能在robots.txt文件中指定域或子域。给定的robots.txt文件仅适用于加载它的子域。阻止某些子域而不是其他子域的唯一方法是为不同的子域提供不同的robots.txt文件

例如,在文件中 你应该:

User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /
而且 你可以:

User-agent: Googlebot
Disallow: /
User-agent: *
Allow: /
(或者你根本就不可能在www子域上有robots.txt文件)

如果您的配置不允许您为不同的子域提供不同的robots.txt文件,那么您可以考虑其他选择,如robots元标记或X-robots-tag响应头