Python 刮削过程中刮削堵塞_Python_Mysql_Web Scraping_Scrapy_Blocking

Python 刮削过程中刮削堵塞

python mysql web-scraping scrapy

Python 刮削过程中刮削堵塞,python,mysql,web-scraping,scrapy,blocking,Python,Mysql,Web Scraping,Scrapy,Blocking,我有一个很长的（需要80万件）清理过程，在完成之前会被阻塞。首先，我想为这个冗长的问题道歉，有很多代码。。。我宁愿给你尽可能多的信息。我尝试了很多东西，阅读了很多其他东西，但我无法解决此日志显示的问题： […一切正常…] 2017-08-02 12:35:55[scrapy.core.scraper]调试：从 {'abstract'：无， “作者”：[{'affiliation_info'：无，'first_name'：u'I'，'last_name'：u'Kimura'}， {'affi

我有一个很长的（需要80万件）清理过程，在完成之前会被阻塞。
首先，我想为这个冗长的问题道歉，有很多代码。。。我宁愿给你尽可能多的信息。

我尝试了很多东西，阅读了很多其他东西，但我无法解决此日志显示的问题：

[…一切正常…]
2017-08-02 12:35:55[scrapy.core.scraper]调试：从
{'abstract'：无，
“作者”：[{'affiliation_info'：无，'first_name'：u'I'，'last_name'：u'Kimura'}，
{'affiliation_info'：无，'first_name'：u'T'，'last_name'：u'Sugiyama'}，
{'affiliation\u info'：无，'first\u name'：u'Y'，'last\u name'：u'Ito'}，
“doi”：没有，
《期刊》：u《实验生物学和医学学会论文集。实验生物学和医学学会（纽约州纽约市）》，
“关键字”：[]，
“出版年份”：u'1967'，
“刮取会话id”：1，
“标题”：Wakasa湾区的鞋底呈u形乳头状生长。”，
'url'：u'https://www.ncbi.nlm.nih.gov/pubmed/6027520'}
2017-08-02 12:35:55【刮板管道】调试：准备项目。
2017-08-02 12:35:55【刮板管道】调试：检查物品是否已经存在。
2017-08-02 12:35:55[刮管器.管道]调试：开始处理。
2017-08-02 12:35:55[scraper.pipelines]调试：获取或创建作者。
2017-08-02 12:35:55[scraper.pipelines]调试：获取或创建作者。
2017-08-02 12:35:55[刮管器.管道]调试：开始关键字处理。
2017-08-02 12:35:55[刮管器管道]调试：获取或创建日志。
2017-08-02 12:35:55[刮管器.管道]调试：提交文章。
2017-08-02 12:35:55[scrapy.core.scraper]调试：从
{'abstract'：无，
“作者”：[{'affiliation_info'：无，'first_name'：u'V H，'last_name'：u'Donaldson'}，
{'affiliation_info'：无，'first_name'：u'O D'，'last_name'：u'Ratnoff'}，
“doi”：没有，
《期刊》：u《实验生物学和医学学会论文集。实验生物学和医学学会（纽约州纽约市）》，
“关键字”：[]，
“出版年份”：u'1967'，
“刮取会话id”：1，
“标题”：u“某些缓激肽类似物对血管通透性的影响”，
'url'：u'https://www.ncbi.nlm.nih.gov/pubmed/6027514'}
2017-08-02 12:36:32[scrapy.extensions.logstats]信息：抓取506页（0页/分钟），抓取48229项（501项/分钟）
2017-08-02 12:37:32[scrapy.extensions.logstats]信息：抓取506页（0页/分钟），抓取48229项（0项/分钟）
2017-08-02 12:38:32[scrapy.extensions.logstats]信息：抓取506页（0页/分钟），抓取48229项（0项/分钟）
2017-08-02 12:39:32[scrapy.extensions.logstats]信息：抓取506页（0页/分钟），抓取48229项（0项/分钟）
2017-08-02 12:40:32[scrapy.extensions.logstats]信息：抓取506页（0页/分钟），抓取48229项（0项/分钟）
2017-08-02 12:41:32[scrapy.extensions.logstats]信息：抓取506页（0页/分钟），抓取48229项（0项/分钟）
[…无限…]

2017-08-02 12:36:32之后，python进程已经在运行，但什么也没有发生：

MySQL不再接收请求：

以下是TelnetConsole的一些信息（阻塞后）：
>>est（）
执行引擎状态
time（）-engine.start_时间：8502.19854903
引擎。具有_容量（）：False
len（发动机。下载器。激活）：16
发动机.刮板.是否怠速（）：False
engine.spider.name:pubmed_spider
发动机。星形轮处于怠速（发动机。星形轮）：错误
engine.slot.closing:False
len（发动机、插槽、进程）：16
len（engine.slot.scheduler.dqs或[]）：0
len（engine.slot.scheduler.mqs）：6605
len（引擎、刮板、插槽、队列）：0
len（引擎、刮刀、插槽、活动）：0
引擎.scraper.slot.active\u大小：0
engine.scraper.slot.itemproc_大小：0
引擎.scraper.slot.needs_backout（）：False
>>>stats.get_stats（）
{
“蜘蛛名称”：“Pubmed”，
“memusage/startup”：63430656，
“刮取会话id”：1，
“日志计数/信息”：148，
“下载程序/响应计数”：506，
“downloader/response_字节”：20485075，
“项目计数”：2182，
“项目被丢弃的原因计数/丢弃项目”：2182，
“刮取会话查询”：“皮肤”，
“日志计数/调试”：582414，
“调度程序/出列”：522，
“日志计数/警告”：2183，
“请求深度最大值”：1，
“开始时间”：datetime.datetime（2017,8,2,11,50,3257921），
“下载程序/请求方法/计数/获取”：522，
“日志计数/关键”：2，
“memusage/max”：177164288，
“downloader/request_字节”：371843，
“下载程序/响应状态/计数/200”：506，
“收到的响应数”：506，
“调度程序/排队/内存”：7127，
“物料刮取计数”：48229，
“调度程序/出列/内存”：522，
“调度程序/排队”：7127，
“下载程序/请求计数”：522
}

这是我的密码：
蜘蛛网

类PubmedSpider（Spider）：
名称='pubmed_spider'
pubmed_电子邮件=“…”
pubmed_工具=“…”
允许的_域=['eutils.ncbi.nlm.nih.gov']
基本url=https://eutils.ncbi.nlm.nih.gov/entrez/eutils'
基本参数='db=pubmed&email=%s&tool=%s'（pubmed\u email，pubmed\u tool）
root_itertag='PubmedArticle'
名称空间=（）
webenv=None
刮取会话id=无
源\总\计数=0
ret_max=100
定义初始化（self，query=None，source=None，system\u session=None，publi\u sci\u session=None，*args，**kwargs）：
超级（PubmedSpider，self）。\uuuuu初始值（*args，**kwargs）
self.query=query
self.source=源
self.system\u session=系统会话
self.publi\u sci\u session=publi\u sci\u session
def获取搜索url（自我）：