Web scraping 维基解密有一个不同寻常的robots.txt。我可以爬什么？_Web Scraping_Web Crawler_Robots.txt

Web scraping 维基解密有一个不同寻常的robots.txt。我可以爬什么？

web-scraping web-crawler

Web scraping 维基解密有一个不同寻常的robots.txt。我可以爬什么？,web-scraping,web-crawler,robots.txt,Web Scraping,Web Crawler,Robots.txt,我正在研究如何为维基解密编写一个网络爬虫当我看到所有我能看到的是一堆看起来无害的HTML，看起来它可能定义了一个主页或其他东西我做错什么了吗？是否有人会将其放入robots.txt中的原因？这是一个错误，可能是服务器配置错误。一个好的robots.txt尽可能容易地确保即使是最便宜的爬虫程序也能得到它，维基解密的robots.txt是：，它是一个作为纯文本的HTML文档所有从以下日期开始的爬网，似乎都显示了相同的无效内容（我只做了抽查）所以，正式地说，现在一切都可以被爬网了。但由于这

我正在研究如何为维基解密编写一个网络爬虫

当我看到所有我能看到的是一堆看起来无害的HTML，看起来它可能定义了一个主页或其他东西

我做错什么了吗？是否有人会将其放入robots.txt中的原因？

这是一个错误，可能是服务器配置错误。一个好的robots.txt尽可能容易地确保即使是最便宜的爬虫程序也能得到它

，维基解密的robots.txt是：

，它是一个作为纯文本的HTML文档

所有从以下日期开始的爬网，似乎都显示了相同的无效内容（我只做了抽查）

所以，正式地说，现在一切都可以被爬网了。但由于这显然是他们方面的一个错误，所以尊重他们最后一个工作的robots.txt是礼貌的：除了路径以

/talk/

开头的URL之外，所有内容都可以被爬网。感谢您的回复。那就爬到前面去吧。

User-Agent: *
Disallow: /talk/