Multithreading 线程是否违反robots.txt?

Multithreading 线程是否违反robots.txt?,multithreading,web-scraping,robots.txt,web-crawler,Multithreading,Web Scraping,Robots.txt,Web Crawler,我是个新手,最近我意识到线程可能是快速抓取站点的方法。在我开始破解这个问题之前,我想确定这是否会让我窒息可能是明智的。所以问题是,若我重写我的程序以使用线程更快地爬行,那个么这会违反大多数站点的robots.txt吗?它们是不相关的。robots.txt表示是否允许您访问某些内容。它没有办法说“请在一本书上只发送一个请求”。取决于:如果你的线程有自己单独的URL队列需要爬网,并且任何类型的队列之间都没有同步,那么当两个(或更多个)时,你可能最终违反网站的robots.txt线程尝试在quick

我是个新手,最近我意识到线程可能是快速抓取站点的方法。在我开始破解这个问题之前,我想确定这是否会让我窒息可能是明智的。所以问题是,若我重写我的程序以使用线程更快地爬行,那个么这会违反大多数站点的robots.txt吗?

它们是不相关的。robots.txt表示是否允许您访问某些内容。它没有办法说“请在一本书上只发送一个请求”。

取决于:如果你的线程有自己单独的URL队列需要爬网,并且任何类型的队列之间都没有同步,那么当两个(或更多个)时,你可能最终违反网站的robots.txt线程尝试在quick Sequence中对同一站点的URL进行爬网。当然不会那样做

非常“简单”的爬虫程序具有某种共享优先级队列,其中工作根据各种机器人排除协议排队,所有线程从该队列中提取要爬虫的URL。这种方法有很多问题,特别是当试图扩大并爬过整个世界野生网络时


更高级的爬虫程序执行“预算”计算(),允许他们根据各种标准智能地安排爬虫:垃圾邮件指示器、robots.txt、覆盖率与新鲜度等。预算强制使多线程爬虫程序更容易快速、礼貌地爬网

此站点上至少有一条爬网延迟线:。我想这是标准的。给你: