Scrapy 速度最好的网络图爬虫?

Scrapy 速度最好的网络图爬虫?,scrapy,web-crawler,nutch,Scrapy,Web Crawler,Nutch,在过去的一个月里,我一直在使用Scrapy进行一个我已经开始的网络爬网项目 这个项目涉及到在一个域名中下拉所有网页的完整文档内容,这些内容可以从主页访问。使用Scrapy编写这篇文章相当容易,但它运行得太慢了。在2-3天内,我只能翻出100000页 我已经意识到,我最初的想法,即刮痧是不适合这种类型的爬行是暴露自己 我开始把目光集中在Nutch身上,希望能有更好的表现。在爬网过程中,我需要存储的唯一数据是网页的全部内容,最好是网页上的所有链接(但即使是在后处理中也可以这样做) 我正在寻找一个快速

在过去的一个月里,我一直在使用Scrapy进行一个我已经开始的网络爬网项目

这个项目涉及到在一个域名中下拉所有网页的完整文档内容,这些内容可以从主页访问。使用Scrapy编写这篇文章相当容易,但它运行得太慢了。在2-3天内,我只能翻出100000页

我已经意识到,我最初的想法,即刮痧是不适合这种类型的爬行是暴露自己

我开始把目光集中在Nutch身上,希望能有更好的表现。在爬网过程中,我需要存储的唯一数据是网页的全部内容,最好是网页上的所有链接(但即使是在后处理中也可以这样做)


我正在寻找一个快速的爬虫程序,它采用了许多并行请求。

这可能是我的错误,因为服务器不整洁。服务器可能没有您想要的那么快,也可能是它(或网站管理员)检测到爬行并限制此连接/cookie的速度。 你使用代理吗?这也会减慢爬行速度。
这可能是卑鄙的智慧,如果你将爬行太密集,你可能会得到这个服务器上的禁令。对于我的C++,我人工设置了每秒1请求限制。但是这个速度对于一个线程来说已经足够了(1个请求*60秒*60分钟*24小时=86400个请求/天)。如果您感兴趣,您可以向whalbot.helmsman{AT}gmail.com发送电子邮件。

Scrapy允许您确定中并发请求的数量和请求之间的延迟。

您知道瓶颈在哪里吗?。正如Whalbot.helmsman指出的,限制可能不在Scrapy本身,而是在您正在爬行的服务器上

您应该首先找出瓶颈是网络还是CPU