Web scraping 维基解密有一个不同寻常的robots.txt。我可以爬什么?

Web scraping 维基解密有一个不同寻常的robots.txt。我可以爬什么?,web-scraping,web-crawler,robots.txt,Web Scraping,Web Crawler,Robots.txt,我正在研究如何为维基解密编写一个网络爬虫 当我看到所有我能看到的是一堆看起来无害的HTML,看起来它可能定义了一个主页或其他东西 我做错什么了吗?是否有人会将其放入robots.txt中的原因?这是一个错误,可能是服务器配置错误。一个好的robots.txt尽可能容易地确保即使是最便宜的爬虫程序也能得到它 ,维基解密的robots.txt是: ,它是一个作为纯文本的HTML文档 所有从以下日期开始的爬网,似乎都显示了相同的无效内容(我只做了抽查) 所以,正式地说,现在一切都可以被爬网了。但由于这

我正在研究如何为维基解密编写一个网络爬虫

当我看到所有我能看到的是一堆看起来无害的HTML,看起来它可能定义了一个主页或其他东西


我做错什么了吗?是否有人会将其放入robots.txt中的原因?

这是一个错误,可能是服务器配置错误。一个好的robots.txt尽可能容易地确保即使是最便宜的爬虫程序也能得到它

,维基解密的robots.txt是:

,它是一个作为纯文本的HTML文档

所有从以下日期开始的爬网,似乎都显示了相同的无效内容(我只做了抽查)


所以,正式地说,现在一切都可以被爬网了。但由于这显然是他们方面的一个错误,所以尊重他们最后一个工作的robots.txt是礼貌的:除了路径以
/talk/

开头的URL之外,所有内容都可以被爬网。感谢您的回复。那就爬到前面去吧。
User-Agent: *
Disallow: /talk/