Javascript 网络爬虫是否遵循robots.txt URL或标签

Javascript 网络爬虫是否遵循robots.txt URL或标签,javascript,url-rewriting,web-crawler,robots.txt,Javascript,Url Rewriting,Web Crawler,Robots.txt,我有一个基于javascript的网站。具体来说,没有标签。单击某些按钮时,内容会动态插入DOM树中,然后使用javascript更改URL以表示更新 所以,我的问题是,如果我的robots.txt中有一个链接列表,那么允许的网络爬虫Google、Bing等会直接访问robots.txt中的链接,还是会跟随下载的网站中的a链接,并在robots.txt中允许 因为在第二种情况下,网络爬虫将无法在下载的/site和robots.txt文件中找到任何URL。您可以使用它为爬虫提供URL列表。正如@B

我有一个基于javascript的网站。具体来说,没有标签。单击某些按钮时,内容会动态插入DOM树中,然后使用javascript更改URL以表示更新

所以,我的问题是,如果我的robots.txt中有一个链接列表,那么允许的网络爬虫Google、Bing等会直接访问robots.txt中的链接,还是会跟随下载的网站中的a链接,并在robots.txt中允许


因为在第二种情况下,网络爬虫将无法在下载的/site和robots.txt文件中找到任何URL。

您可以使用它为爬虫提供URL列表。正如@Barmar所提到的,robots.txt的用途稍有不同。

robots.txt只告诉爬虫他们不允许爬入的内容,它不包含要访问的链接列表。@Barmar:一些主要爬虫支持Allow指令,这可以抵消下面的Disallow指令。引自维基百科。我只对Bing/Google这两个大型网络爬虫感兴趣,它们都阅读Allow指令。不管怎样,这只是一个Allow列表,而不是它们应该爬网的地方列表。他们通过以下链接找到了要去的地方。无论如何,这个问题对SO来说都是离题的。ServerFault.com是询问Web服务器配置的地方。