Python 好的爬行速度是多少?

Python 好的爬行速度是多少?,python,scrapy,web-crawler,Python,Scrapy,Web Crawler,我正在抓取网页来创建一个搜索引擎,并且已经能够使用Scrapy在1小时内抓取近9300页。我想知道我还能提高多少,什么是“好”的爬行速度。我不是专家,但我想说你的速度相当慢。我刚去谷歌,输入“hats”一词,按回车键,结果是:大约65000000个结果(0.63秒)。这很难与之竞争。我想说还有很大的改进空间。简短回答:创建搜索引擎没有真正的推荐速度 长答案: 一般来说,爬行速度并不能真正决定你的爬行器是好是坏,甚至不能决定它是否能作为一个程序为你的搜索引擎提供信息 在多个站点上抓取大量页面时,也

我正在抓取网页来创建一个搜索引擎,并且已经能够使用Scrapy在1小时内抓取近9300页。我想知道我还能提高多少,什么是“好”的爬行速度。

我不是专家,但我想说你的速度相当慢。我刚去谷歌,输入“hats”一词,按回车键,结果是:大约65000000个结果(0.63秒)。这很难与之竞争。我想说还有很大的改进空间。

简短回答:创建搜索引擎没有真正的推荐速度

长答案:

一般来说,爬行速度并不能真正决定你的爬行器是好是坏,甚至不能决定它是否能作为一个程序为你的搜索引擎提供信息

在多个站点上抓取大量页面时,也不能谈论抓取速度。爬行速度应仅针对每个站点确定,这意味着爬行器应可配置为可更改其在任何特定时间访问站点的频率

如果我们谈论的是您提到的当前速度(9300/小时),这意味着您每秒收集约2.5页,我认为这并不糟糕,但正如前面所解释的,这无助于确定您的最终目标(创建搜索引擎)


此外,如果您真的决定使用Scrapy实现一个广泛的爬虫程序来创建搜索引擎,那么您永远不会只发送一个进程。您需要设置数以千计(甚至更多)的爬行器来运行检查,以获取所需的更多信息。此外,您还必须设置不同的服务来帮助您维护这些爬行器以及它们在进程之间的行为。对于初学者,我建议检查和。

我实际上是从索引中检索结果,因此检索时间不是问题。我只是在这里谈论爬行速度,因为我正在爬行网站并将文本存储在索引中。现在爬行时间大大缩短了,通过应用多线程技术并将文档批量添加到索引中,我能够在15分钟内爬行9000页左右。