Javascript 网络爬虫是否遵循robots.txt URL或标签_Javascript_Url Rewriting_Web Crawler_Robots.txt

Javascript 网络爬虫是否遵循robots.txt URL或标签

javascript url-rewriting web-crawler

Javascript 网络爬虫是否遵循robots.txt URL或标签,javascript,url-rewriting,web-crawler,robots.txt,Javascript,Url Rewriting,Web Crawler,Robots.txt,我有一个基于javascript的网站。具体来说，没有标签。单击某些按钮时，内容会动态插入DOM树中，然后使用javascript更改URL以表示更新所以，我的问题是，如果我的robots.txt中有一个链接列表，那么允许的网络爬虫Google、Bing等会直接访问robots.txt中的链接，还是会跟随下载的网站中的a链接，并在robots.txt中允许因为在第二种情况下，网络爬虫将无法在下载的/site和robots.txt文件中找到任何URL。您可以使用它为爬虫提供URL列表。正如@B

我有一个基于javascript的网站。具体来说，没有标签。单击某些按钮时，内容会动态插入DOM树中，然后使用javascript更改URL以表示更新

所以，我的问题是，如果我的robots.txt中有一个链接列表，那么允许的网络爬虫Google、Bing等会直接访问robots.txt中的链接，还是会跟随下载的网站中的a链接，并在robots.txt中允许

因为在第二种情况下，网络爬虫将无法在下载的/site和robots.txt文件中找到任何URL。

您可以使用它为爬虫提供URL列表。正如@Barmar所提到的，robots.txt的用途稍有不同。

robots.txt只告诉爬虫他们不允许爬入的内容，它不包含要访问的链接列表。@Barmar：一些主要爬虫支持Allow指令，这可以抵消下面的Disallow指令。引自维基百科。我只对Bing/Google这两个大型网络爬虫感兴趣，它们都阅读Allow指令。不管怎样，这只是一个Allow列表，而不是它们应该爬网的地方列表。他们通过以下链接找到了要去的地方。无论如何，这个问题对SO来说都是离题的。ServerFault.com是询问Web服务器配置的地方。