Performance 如何建立一个强大的爬虫像谷歌的?

Performance 如何建立一个强大的爬虫像谷歌的?,performance,scrapy,web-crawler,distributed-system,Performance,Scrapy,Web Crawler,Distributed System,我想建立一个爬虫,它可以在几分钟内更新成千上万的链接。 有没有成熟的方法来安排时间? 是否需要分布式系统? 限制性能的最大障碍是什么? Thx.除非您愿意降低速度,否则所需的处理量和内存将需要分布式处理。请记住,您将要处理数十亿个链接和TB的文本和图像您需要一个分布式爬虫程序,但不要重新发明轮子,请使用Apache Nutch。它正是为此目的而构建的,成熟而稳定,被广泛的社区用于处理大规模爬行。对于Python,您可以通过Scrapinghub使用Frontera 他们是制造刮痧的人 还有Apa

我想建立一个爬虫,它可以在几分钟内更新成千上万的链接。 有没有成熟的方法来安排时间? 是否需要分布式系统? 限制性能的最大障碍是什么?
Thx.

除非您愿意降低速度,否则所需的处理量和内存将需要分布式处理。请记住,您将要处理数十亿个链接和TB的文本和图像

您需要一个分布式爬虫程序,但不要重新发明轮子,请使用Apache Nutch。它正是为此目的而构建的,成熟而稳定,被广泛的社区用于处理大规模爬行。

对于Python,您可以通过Scrapinghub使用Frontera

他们是制造刮痧的人

还有ApacheNutch,这是一个更老的项目。

MetalloyD,你能告诉我scrapy cluster和distributed frontera的区别吗?我很困惑,每种方法的优缺点是什么?