Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/logging/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Debugging 长时间运行的刮痧爬行中止_Debugging_Logging_Scrapy - Fatal编程技术网

Debugging 长时间运行的刮痧爬行中止

Debugging 长时间运行的刮痧爬行中止,debugging,logging,scrapy,Debugging,Logging,Scrapy,我在不同的网站上运行了几个蜘蛛。大多数跑步需要2-3天,很多跑步都很好。但有时会发生,爬行只是停止或崩溃 与: 我正在将输出写入一个文件,例如,对于一个爬网,最后一个条目是: [scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min) 它就停在那里。没有公布任何数据,也没有结束一切 现在我假设这可能是网络问题或类似问题? 这台机器的平均负载

我在不同的网站上运行了几个蜘蛛。大多数跑步需要2-3天,很多跑步都很好。但有时会发生,爬行只是停止或崩溃

与:

我正在将输出写入一个文件,例如,对于一个爬网,最后一个条目是:

[scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min)
它就停在那里。没有公布任何数据,也没有结束一切

现在我假设这可能是网络问题或类似问题?
这台机器的平均负载为0.10,我正在以40秒的延迟进行抓取,并运行5-10个蜘蛛。硬件很旧,但RAM和CPU通常对
htop
感到厌烦。我没有更改
日志级别
,因此默认情况下它应该是
DEBUG


如何找出发生了什么?

有一件事我见过不止一次:人们使用python requests.get()或在他们的spider代码中,如果不显式传递超时,这些调用可能永远挂起(true)。这是一件事。您可以使用strace和ssOne检查进程是否卡在IO上,我不止一次看到过这样一件事:使用python requests.get()的人,或者在他们的spider代码中,如果没有显式传递超时,这些调用可能永远挂起(true)。这是一件事。您可以使用strace和ss检查进程是否卡在IO上
[scrapy.extensions.logstats] INFO: Crawled 1975 pages (at 1 pages/min), scraped 1907 items (at 1 items/min)