Python Scrapy只处理iterable中的前10个请求
我有一个爬虫程序,它从一个站点地图开始,抓取(几个)100个唯一的URL,然后对这100个页面进行进一步的处理。但是,我只收到前10个URL的回调。爬行器日志似乎只在前10个URL上调用HTTP GETPython Scrapy只处理iterable中的前10个请求,python,python-2.7,scrapy,Python,Python 2.7,Scrapy,我有一个爬虫程序,它从一个站点地图开始,抓取(几个)100个唯一的URL,然后对这100个页面进行进一步的处理。但是,我只收到前10个URL的回调。爬行器日志似乎只在前10个URL上调用HTTP GET class MySpider(scrapy.spider.BaseSpider): # settings ... def parse(self, response): urls = [...] for url in urls:
class MySpider(scrapy.spider.BaseSpider):
# settings ...
def parse(self, response):
urls = [...]
for url in urls:
request = scrapy.http.Request(url, callback=self.parse_part2)
print url
yield request
def parse_part2(self, response):
print response.url
# do more parsing here
我已经考虑过这些选择:
编辑:日志,完全正常。
2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
耶,回电!
2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
耶,回电!
耶,回电!
耶,回电!
耶,回电!
耶,回电!
2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
耶,回电!
2015-02-11 02:05:13-0800[mysite]调试:已爬网(200)
耶,回电!
2015-02-11 02:05:13-0800[mysite]调试:已爬网(200)
耶,回电!
2015-02-11 02:05:13-0800[mysite]调试:已爬网(200)
耶,回电!
2015-02-11 02:05:13-0800[mysite]信息:关闭蜘蛛(已完成)
2015-02-11 02:05:13-0800[我的网站]信息:正在倾倒垃圾统计数据:
{'downloader/request_bytes':4590,
“下载程序/请求计数”:11,
“下载程序/请求方法/计数/获取”:11,
“downloader/response_字节”:638496,
“下载程序/响应计数”:11,
“下载/响应状态\计数/200”:11,
“完成原因”:“完成”,
“完成时间”:datetime.datetime(2015,2,11,10,5,13,260322),
“日志计数/调试”:17,
“日志计数/信息”:3,
“请求深度最大值”:1,
“收到的响应数”:11,
“调度程序/出列”:11,
“调度程序/出列/内存”:11,
“调度程序/排队”:11,
“调度程序/排队/内存”:11,
“开始时间”:datetime.datetime(2015,2,11,10,5,12,492811)}
2015-02-11 02:05:13-0800[我的网站]信息:蜘蛛关闭(完成)
尝试将日志级别设置为调试,您将看到更多日志
如果你这样做了。请将它们粘贴到上,这样我就在我的一个设置文件中找到了这个属性
max_requests / MAX_REQUESTS = 10
蜘蛛提前退出(oops)的原因是什么?其他URL的格式是否无效?否,如果我设置URL=reversed(URL)或URL=URL[10:],我仍然会收到整整10次回调。有关配置的问题。深度限制值是多少?为什么不在规则中使用follow=True?深度限制默认为0,对吗?也就是说没有上限。另外follow=false,因为我有一个回调,它将手动处理我想要刮取的链接。默认情况下,日志级别是debug,我没有发现任何可疑的内容。
max_requests / MAX_REQUESTS = 10