Search robots.txt,带有不允许和允许

Search robots.txt,带有不允许和允许,search,meta-tags,robot,Search,Meta Tags,Robot,我负责一个具有基本URL的网站,例如: https://hello.world.com/my-site/ 中有一个robots.txt文件https://hello.world.com/robots.txt 内容如下: User-agent: * Disallow: / 我无法以任何方式编辑、删除或影响该文件 但是,我可以在下面的所有页面中添加标签https://hello.world.com/my-site/ . 我知道我可以添加,例如: <meta name="robots" con

我负责一个具有基本URL的网站,例如: https://hello.world.com/my-site/

中有一个robots.txt文件https://hello.world.com/robots.txt 内容如下:

User-agent: *
Disallow: /
我无法以任何方式编辑、删除或影响该文件

但是,我可以在下面的所有页面中添加标签https://hello.world.com/my-site/ . 我知道我可以添加,例如:

<meta name="robots" content="index,follow">
我的问题是:谷歌和其他搜索引擎是否会更倾向于我的meta标签https://hello.world.com/my-site/ ,或https://hello.world.com/robots.txt ?

提前感谢,


David

谷歌将同时使用这两种工具,首先使用robots.txt查找他们可以访问的路径

然后谷歌寻找Meta,有了Meta,你可以通过脚本更好地控制他们在索引中放置和/或跟随的页面

我想你应该两者都用。在robots.txt中放置Google不应看到的所有目录,并控制控制器脚本中的Meta标记,因此可以设置noindex,如下所示。你不能像noindex那样使用robots.txt。robots.txt指令是爬虫指令,而元标记是索引器指令。所有索引器指令都需要爬网。因此,如果robots.txt被设置为不允许,您在meta中所做的任何事情都不会产生影响

Robots元标记和X-Robots-Tag HTTP头在 URL已爬网。如果不允许某个页面在 robots.txt文件,然后是有关索引或服务的任何信息 将找不到指令,因此将忽略这些指令。如果 必须遵循索引或服务指令,URL包含 不能禁止这些指令爬行


另请参见:

注册并登录到您的谷歌网站管理员控制台,查看您是否可以在其中覆盖robots.txt设置-其中有一个部分,但我不知道它是否允许您覆盖或只是提供提示

一定要继续尝试更改robots.txt文件-meta标记不能覆盖robots.txt文件,因为robots.txt文件本质上等同于crawl/nocrawl而不是index/noindex这样的消息-所以当谷歌看到它不能爬行时,它从不检查它是否可以索引,但即使可以,它仍然不能爬行