Seo robots.txt允许除少数子目录之外的所有子目录

Seo robots.txt允许除少数子目录之外的所有子目录,seo,search-engine,cpanel,robots.txt,shared-hosting,Seo,Search Engine,Cpanel,Robots.txt,Shared Hosting,我想我的网站被索引在搜索引擎除了少数子目录。以下是我的robots.txt设置: 根目录中的robots.txt User-agent: * Allow: / 在子目录中分离robots.txt(待排除) 这是正确的方法还是根目录规则将覆盖子目录规则?是的,有 User-agent: * Disallow: / 如果您正在开发一个新网站,并且不希望搜索引擎为您不完整的网站编制索引,则上述指令非常有用。 此外,您还可以获得正确的高级信息您可以使用根目录中的robots.txt来管理这些信息。在

我想我的网站被索引在搜索引擎除了少数子目录。以下是我的
robots.txt
设置:

根目录中的robots.txt

User-agent: *
Allow: /
在子目录中分离
robots.txt
(待排除)

这是正确的方法还是根目录规则将覆盖子目录规则?

是的,有

User-agent: *
Disallow: /
如果您正在开发一个新网站,并且不希望搜索引擎为您不完整的网站编制索引,则上述指令非常有用。
此外,您还可以获得正确的高级信息

您可以使用根目录中的robots.txt来管理这些信息。在您的禁止模式之前,请确保有允许模式。

不,这是错误的

子目录中不能有robots.txt。主机的robots.txt文件

如果要禁止对路径以
/foo
开头的URL进行爬网,请在robots.txt(
http://example.com/robots.txt
):

这允许对所有内容进行爬网(因此不需要
Allow
),但URL除外,如

  • http://example.com/foo
  • http://example.com/foo/
  • http://example.com/foo.html
  • http://example.com/foobar
  • http://example.com/foo/bar

我可以为子域目录使用单独的robots.txt吗?每个子域都是一个新主机,因此对于
foo.example.com
,robots.txt需要位于
foo.example.com/robots.txt
。只要机器人在访问此保留URL时看到robots.txt,您如何在服务器端实现这一点并不重要。这将阻止并非OP想要的所有内容。还要注意,并非所有爬虫都尊重robots.txt,因此它不是真正访问控制机制的替代品。
User-agent: *
Disallow: /
User-agent: *
Disallow: /foo