Debugging 长时间运行的刮痧爬行中止_Debugging_Logging_Scrapy

Debugging 长时间运行的刮痧爬行中止

debugging logging scrapy

Debugging 长时间运行的刮痧爬行中止,debugging,logging,scrapy,Debugging,Logging,Scrapy,我在不同的网站上运行了几个蜘蛛。大多数跑步需要2-3天，很多跑步都很好。但有时会发生，爬行只是停止或崩溃与：我正在将输出写入一个文件，例如，对于一个爬网，最后一个条目是： [scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min) 它就停在那里。没有公布任何数据，也没有结束一切现在我假设这可能是网络问题或类似问题？这台机器的平均负载

我在不同的网站上运行了几个蜘蛛。大多数跑步需要2-3天，很多跑步都很好。但有时会发生，爬行只是停止或崩溃

与：

我正在将输出写入一个文件，例如，对于一个爬网，最后一个条目是：

[scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min)

它就停在那里。没有公布任何数据，也没有结束一切

现在我假设这可能是网络问题或类似问题？
这台机器的平均负载为0.10，我正在以40秒的延迟进行抓取，并运行5-10个蜘蛛。硬件很旧，但RAM和CPU通常对

htop

感到厌烦。我没有更改

日志级别

，因此默认情况下它应该是

DEBUG

如何找出发生了什么？

有一件事我见过不止一次：人们使用python requests.get（）或在他们的spider代码中，如果不显式传递超时，这些调用可能永远挂起（true）。这是一件事。您可以使用strace和ssOne检查进程是否卡在IO上，我不止一次看到过这样一件事：使用python requests.get（）的人，或者在他们的spider代码中，如果没有显式传递超时，这些调用可能永远挂起（true）。这是一件事。您可以使用strace和ss检查进程是否卡在IO上

[scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min)