Performance 如何建立一个强大的爬虫像谷歌的？_Performance_Scrapy_Web Crawler_Distributed System

Performance 如何建立一个强大的爬虫像谷歌的？

performance scrapy web-crawler

Performance 如何建立一个强大的爬虫像谷歌的？,performance,scrapy,web-crawler,distributed-system,Performance,Scrapy,Web Crawler,Distributed System,我想建立一个爬虫，它可以在几分钟内更新成千上万的链接。有没有成熟的方法来安排时间？是否需要分布式系统？限制性能的最大障碍是什么？ Thx.除非您愿意降低速度，否则所需的处理量和内存将需要分布式处理。请记住，您将要处理数十亿个链接和TB的文本和图像您需要一个分布式爬虫程序，但不要重新发明轮子，请使用Apache Nutch。它正是为此目的而构建的，成熟而稳定，被广泛的社区用于处理大规模爬行。对于Python，您可以通过Scrapinghub使用Frontera 他们是制造刮痧的人还有Apa

我想建立一个爬虫，它可以在几分钟内更新成千上万的链接。有没有成熟的方法来安排时间？是否需要分布式系统？限制性能的最大障碍是什么？

Thx.

除非您愿意降低速度，否则所需的处理量和内存将需要分布式处理。请记住，您将要处理数十亿个链接和TB的文本和图像

您需要一个分布式爬虫程序，但不要重新发明轮子，请使用Apache Nutch。它正是为此目的而构建的，成熟而稳定，被广泛的社区用于处理大规模爬行。

对于Python，您可以通过Scrapinghub使用Frontera

他们是制造刮痧的人

还有ApacheNutch，这是一个更老的项目。

MetalloyD，你能告诉我scrapy cluster和distributed frontera的区别吗？我很困惑，每种方法的优缺点是什么？