Scrapy 速度最好的网络图爬虫？_Scrapy_Web Crawler_Nutch

Scrapy 速度最好的网络图爬虫？

scrapy web-crawler

Scrapy 速度最好的网络图爬虫？,scrapy,web-crawler,nutch,Scrapy,Web Crawler,Nutch,在过去的一个月里，我一直在使用Scrapy进行一个我已经开始的网络爬网项目这个项目涉及到在一个域名中下拉所有网页的完整文档内容，这些内容可以从主页访问。使用Scrapy编写这篇文章相当容易，但它运行得太慢了。在2-3天内，我只能翻出100000页我已经意识到，我最初的想法，即刮痧是不适合这种类型的爬行是暴露自己我开始把目光集中在Nutch身上，希望能有更好的表现。在爬网过程中，我需要存储的唯一数据是网页的全部内容，最好是网页上的所有链接（但即使是在后处理中也可以这样做）我正在寻找一个快速

在过去的一个月里，我一直在使用Scrapy进行一个我已经开始的网络爬网项目

这个项目涉及到在一个域名中下拉所有网页的完整文档内容，这些内容可以从主页访问。使用Scrapy编写这篇文章相当容易，但它运行得太慢了。在2-3天内，我只能翻出100000页

我已经意识到，我最初的想法，即刮痧是不适合这种类型的爬行是暴露自己

我开始把目光集中在Nutch身上，希望能有更好的表现。在爬网过程中，我需要存储的唯一数据是网页的全部内容，最好是网页上的所有链接（但即使是在后处理中也可以这样做）

我正在寻找一个快速的爬虫程序，它采用了许多并行请求。

这可能是我的错误，因为服务器不整洁。服务器可能没有您想要的那么快，也可能是它（或网站管理员）检测到爬行并限制此连接/cookie的速度。你使用代理吗？这也会减慢爬行速度。

这可能是卑鄙的智慧，如果你将爬行太密集，你可能会得到这个服务器上的禁令。对于我的C++，我人工设置了每秒1请求限制。但是这个速度对于一个线程来说已经足够了（1个请求*60秒*60分钟*24小时=86400个请求/天）。如果您感兴趣，您可以向whalbot.helmsman{AT}gmail.com发送电子邮件。

Scrapy允许您确定中并发请求的数量和请求之间的延迟。

您知道瓶颈在哪里吗？。正如Whalbot.helmsman指出的，限制可能不在Scrapy本身，而是在您正在爬行的服务器上

您应该首先找出瓶颈是网络还是CPU