Python 刮削过程中刮削堵塞

Python 刮削过程中刮削堵塞,python,mysql,web-scraping,scrapy,blocking,Python,Mysql,Web Scraping,Scrapy,Blocking,我有一个很长的(需要80万件)清理过程,在完成之前会被阻塞。 首先,我想为这个冗长的问题道歉,有很多代码。。。我宁愿给你尽可能多的信息。 我尝试了很多东西,阅读了很多其他东西,但我无法解决此日志显示的问题: […一切正常…] 2017-08-02 12:35:55[scrapy.core.scraper]调试:从 {'abstract':无, “作者”:[{'affiliation_info':无,'first_name':u'I','last_name':u'Kimura'}, {'affi

我有一个很长的(需要80万件)清理过程,在完成之前会被阻塞。
首先,我想为这个冗长的问题道歉,有很多代码。。。我宁愿给你尽可能多的信息。

我尝试了很多东西,阅读了很多其他东西,但我无法解决此日志显示的问题:

[…一切正常…]
2017-08-02 12:35:55[scrapy.core.scraper]调试:从
{'abstract':无,
“作者”:[{'affiliation_info':无,'first_name':u'I','last_name':u'Kimura'},
{'affiliation_info':无,'first_name':u'T','last_name':u'Sugiyama'},
{'affiliation\u info':无,'first\u name':u'Y','last\u name':u'Ito'},
“doi”:没有,
《期刊》:u《实验生物学和医学学会论文集。实验生物学和医学学会(纽约州纽约市)》,
“关键字”:[],
“出版年份”:u'1967',
“刮取会话id”:1,
“标题”:Wakasa湾区的鞋底呈u形乳头状生长。”,
'url':u'https://www.ncbi.nlm.nih.gov/pubmed/6027520'}
2017-08-02 12:35:55【刮板管道】调试:准备项目。
2017-08-02 12:35:55【刮板管道】调试:检查物品是否已经存在。
2017-08-02 12:35:55[刮管器.管道]调试:开始处理。
2017-08-02 12:35:55[scraper.pipelines]调试:获取或创建作者。
2017-08-02 12:35:55[scraper.pipelines]调试:获取或创建作者。
2017-08-02 12:35:55[刮管器.管道]调试:开始关键字处理。
2017-08-02 12:35:55[刮管器管道]调试:获取或创建日志。
2017-08-02 12:35:55[刮管器.管道]调试:提交文章。
2017-08-02 12:35:55[scrapy.core.scraper]调试:从
{'abstract':无,
“作者”:[{'affiliation_info':无,'first_name':u'V H,'last_name':u'Donaldson'},
{'affiliation_info':无,'first_name':u'O D','last_name':u'Ratnoff'},
“doi”:没有,
《期刊》:u《实验生物学和医学学会论文集。实验生物学和医学学会(纽约州纽约市)》,
“关键字”:[],
“出版年份”:u'1967',
“刮取会话id”:1,
“标题”:u“某些缓激肽类似物对血管通透性的影响”,
'url':u'https://www.ncbi.nlm.nih.gov/pubmed/6027514'}
2017-08-02 12:36:32[scrapy.extensions.logstats]信息:抓取506页(0页/分钟),抓取48229项(501项/分钟)
2017-08-02 12:37:32[scrapy.extensions.logstats]信息:抓取506页(0页/分钟),抓取48229项(0项/分钟)
2017-08-02 12:38:32[scrapy.extensions.logstats]信息:抓取506页(0页/分钟),抓取48229项(0项/分钟)
2017-08-02 12:39:32[scrapy.extensions.logstats]信息:抓取506页(0页/分钟),抓取48229项(0项/分钟)
2017-08-02 12:40:32[scrapy.extensions.logstats]信息:抓取506页(0页/分钟),抓取48229项(0项/分钟)
2017-08-02 12:41:32[scrapy.extensions.logstats]信息:抓取506页(0页/分钟),抓取48229项(0项/分钟)
[…无限…]
2017-08-02 12:36:32之后,python进程已经在运行,但什么也没有发生:

MySQL不再接收请求:

以下是TelnetConsole的一些信息(阻塞后):

>>est()
执行引擎状态
time()-engine.start_时间:8502.19854903
引擎。具有_容量():False
len(发动机。下载器。激活):16
发动机.刮板.是否怠速():False
engine.spider.name:pubmed_spider
发动机。星形轮处于怠速(发动机。星形轮):错误
engine.slot.closing:False
len(发动机、插槽、进程):16
len(engine.slot.scheduler.dqs或[]):0
len(engine.slot.scheduler.mqs):6605
len(引擎、刮板、插槽、队列):0
len(引擎、刮刀、插槽、活动):0
引擎.scraper.slot.active\u大小:0
engine.scraper.slot.itemproc_大小:0
引擎.scraper.slot.needs_backout():False
>>>stats.get_stats()
{
“蜘蛛名称”:“Pubmed”,
“memusage/startup”:63430656,
“刮取会话id”:1,
“日志计数/信息”:148,
“下载程序/响应计数”:506,
“downloader/response_字节”:20485075,
“项目计数”:2182,
“项目被丢弃的原因计数/丢弃项目”:2182,
“刮取会话查询”:“皮肤”,
“日志计数/调试”:582414,
“调度程序/出列”:522,
“日志计数/警告”:2183,
“请求深度最大值”:1,
“开始时间”:datetime.datetime(2017,8,2,11,50,3257921),
“下载程序/请求方法/计数/获取”:522,
“日志计数/关键”:2,
“memusage/max”:177164288,
“downloader/request_字节”:371843,
“下载程序/响应状态/计数/200”:506,
“收到的响应数”:506,
“调度程序/排队/内存”:7127,
“物料刮取计数”:48229,
“调度程序/出列/内存”:522,
“调度程序/排队”:7127,
“下载程序/请求计数”:522
}
这是我的密码:

蜘蛛网

类PubmedSpider(Spider):
名称='pubmed_spider'
pubmed_电子邮件=“…”
pubmed_工具=“…”
允许的_域=['eutils.ncbi.nlm.nih.gov']
基本url=https://eutils.ncbi.nlm.nih.gov/entrez/eutils'
基本参数='db=pubmed&email=%s&tool=%s'(pubmed\u email,pubmed\u tool)
root_itertag='PubmedArticle'
名称空间=()
webenv=None
刮取会话id=无
源\总\计数=0
ret_max=100
定义初始化(self,query=None,source=None,system\u session=None,publi\u sci\u session=None,*args,**kwargs):
超级(PubmedSpider,self)。\uuuuu初始值(*args,**kwargs)
self.query=query
self.source=源
self.system\u session=系统会话
self.publi\u sci\u session=publi\u sci\u session
def获取搜索url(自我):