Seo robots.txt允许除少数子目录之外的所有子目录
我想我的网站被索引在搜索引擎除了少数子目录。以下是我的Seo robots.txt允许除少数子目录之外的所有子目录,seo,search-engine,cpanel,robots.txt,shared-hosting,Seo,Search Engine,Cpanel,Robots.txt,Shared Hosting,我想我的网站被索引在搜索引擎除了少数子目录。以下是我的robots.txt设置: 根目录中的robots.txt User-agent: * Allow: / 在子目录中分离robots.txt(待排除) 这是正确的方法还是根目录规则将覆盖子目录规则?是的,有 User-agent: * Disallow: / 如果您正在开发一个新网站,并且不希望搜索引擎为您不完整的网站编制索引,则上述指令非常有用。 此外,您还可以获得正确的高级信息您可以使用根目录中的robots.txt来管理这些信息。在
robots.txt
设置:
根目录中的robots.txt
User-agent: *
Allow: /
在子目录中分离robots.txt
(待排除)
这是正确的方法还是根目录规则将覆盖子目录规则?是的,有
User-agent: *
Disallow: /
如果您正在开发一个新网站,并且不希望搜索引擎为您不完整的网站编制索引,则上述指令非常有用。
此外,您还可以获得正确的高级信息您可以使用根目录中的robots.txt来管理这些信息。在您的禁止模式之前,请确保有允许模式。不,这是错误的 子目录中不能有robots.txt。主机的robots.txt文件 如果要禁止对路径以
/foo
开头的URL进行爬网,请在robots.txt(http://example.com/robots.txt
):
这允许对所有内容进行爬网(因此不需要Allow
),但URL除外,如
http://example.com/foo
http://example.com/foo/
http://example.com/foo.html
http://example.com/foobar
http://example.com/foo/bar
foo.example.com
,robots.txt需要位于foo.example.com/robots.txt
。只要机器人在访问此保留URL时看到robots.txt,您如何在服务器端实现这一点并不重要。这将阻止并非OP想要的所有内容。还要注意,并非所有爬虫都尊重robots.txt,因此它不是真正访问控制机制的替代品。
User-agent: *
Disallow: /
User-agent: *
Disallow: /foo