Web crawler 禁用爬网子域谷歌爬虫
我想知道我如何才能禁止谷歌对我的子域进行爬网 我拍了一张我的网络空间文件夹的照片。awesom媒体文件夹是主站点www.awesom-media.de所在的文件夹 另一个是子域。我想说的是谷歌不应该抓取这个,但我不知道如何抓取 我在awesom媒体文件夹中没有robot.txt,但正如您在/part中看到的那样。robot.txt的内容是Web crawler 禁用爬网子域谷歌爬虫,web-crawler,google-crawlers,Web Crawler,Google Crawlers,我想知道我如何才能禁止谷歌对我的子域进行爬网 我拍了一张我的网络空间文件夹的照片。awesom媒体文件夹是主站点www.awesom-media.de所在的文件夹 另一个是子域。我想说的是谷歌不应该抓取这个,但我不知道如何抓取 我在awesom媒体文件夹中没有robot.txt,但正如您在/part中看到的那样。robot.txt的内容是用户代理:* 不允许: 就这样 如果你的所有子域都直接路由到特定的文件夹(例如automazin.awesom-media.de使用文件夹auto magazi
用户代理:*
不允许:
就这样
如果你的所有子域都直接路由到特定的文件夹(例如automazin.awesom-media.de使用文件夹
auto magazin
),我怎么能告诉谷歌不要抓取子域呢
User-agent: *
Disallow: /
在您的所有文件夹中,您希望禁止Google使用子域。我猜这些是自动杂志
和未来杂志
(可能更多)
现在你把它放在根文件夹中,谷歌可能根本看不到。请尝试加载[subdomain].awesom-media.de/robots.txt,看看它是否加载robot.txt。啊,对不起,我的错误。Automazin | mylife | concierg和future magazin不是子域。这是正常的域名,它是我网站空间的一部分。子域是文件夹schmidt;HMA,limo,backend,现在我在所有子域文件夹中放了一个robot.txt,上面有你发布的行。schimdt.awesom-media.de/robot.txt也在工作。这是正确的吗?这是罪过,当然它必须被禁止://code>。我更正了我的帖子。否则,你将允许谷歌的一切。