Python Scrapy只处理iterable中的前10个请求_Python_Python 2.7_Scrapy

Python Scrapy只处理iterable中的前10个请求

python python-2.7 scrapy

Python Scrapy只处理iterable中的前10个请求,python,python-2.7,scrapy,Python,Python 2.7,Scrapy,我有一个爬虫程序，它从一个站点地图开始，抓取（几个）100个唯一的URL，然后对这100个页面进行进一步的处理。但是，我只收到前10个URL的回调。爬行器日志似乎只在前10个URL上调用HTTP GET class MySpider(scrapy.spider.BaseSpider): # settings ... def parse(self, response): urls = [...] for url in urls:

我有一个爬虫程序，它从一个站点地图开始，抓取（几个）100个唯一的URL，然后对这100个页面进行进一步的处理。但是，我只收到前10个URL的回调。爬行器日志似乎只在前10个URL上调用HTTP GET

class MySpider(scrapy.spider.BaseSpider):

    # settings ... 

    def parse(self, response):
        urls = [...]
        for url in urls:
            request = scrapy.http.Request(url, callback=self.parse_part2)
            print url
            yield request

    def parse_part2(self, response):
        print response.url
        # do more parsing here

我已经考虑过这些选择：

打乱名单

设置下载延迟（非常确定我没有速率限制）

dont\u filter=True arg

返回请求数组而不是产生

禁用并行请求

有没有我不知道的神秘的最大因子标志

编辑：日志，完全正常。

2015-02-11 02:05:12-0800[mysite]调试：爬网（200）
耶，回电！
2015-02-11 02:05:12-0800[mysite]调试：爬网（200）
2015-02-11 02:05:12-0800[mysite]调试：爬网（200）
2015-02-11 02:05:12-0800[mysite]调试：爬网（200）
2015-02-11 02:05:12-0800[mysite]调试：爬网（200）
2015-02-11 02:05:12-0800[mysite]调试：爬网（200）
耶，回电！
耶，回电！
耶，回电！
耶，回电！
耶，回电！
2015-02-11 02:05:12-0800[mysite]调试：爬网（200）
耶，回电！
2015-02-11 02:05:13-0800[mysite]调试：已爬网（200）
耶，回电！
2015-02-11 02:05:13-0800[mysite]调试：已爬网（200）
耶，回电！
2015-02-11 02:05:13-0800[mysite]调试：已爬网（200）
耶，回电！
2015-02-11 02:05:13-0800[mysite]信息：关闭蜘蛛（已完成）
2015-02-11 02:05:13-0800[我的网站]信息：正在倾倒垃圾统计数据：
{'downloader/request_bytes'：4590，
“下载程序/请求计数”：11，
“下载程序/请求方法/计数/获取”：11，
“downloader/response_字节”：638496，
“下载程序/响应计数”：11，
“下载/响应状态\计数/200”：11，
“完成原因”：“完成”，
“完成时间”：datetime.datetime（2015,2,11,10,5,13,260322），
“日志计数/调试”：17，
“日志计数/信息”：3，
“请求深度最大值”：1，
“收到的响应数”：11，
“调度程序/出列”：11，
“调度程序/出列/内存”：11，
“调度程序/排队”：11，
“调度程序/排队/内存”：11，
“开始时间”：datetime.datetime（2015,2,11,10,5,12,492811）}
2015-02-11 02:05:13-0800[我的网站]信息：蜘蛛关闭（完成）

尝试将日志级别设置为调试，您将看到更多日志

如果你这样做了。请将它们粘贴到

上，这样我就在我的一个设置文件中找到了这个属性

max_requests / MAX_REQUESTS = 10

蜘蛛提前退出（oops）的原因是什么？

其他URL的格式是否无效？否，如果我设置URL=reversed（URL）或URL=URL[10:]，我仍然会收到整整10次回调。有关配置的问题。深度限制值是多少？为什么不在规则中使用follow=True？深度限制默认为0，对吗？也就是说没有上限。另外follow=false，因为我有一个回调，它将手动处理我想要刮取的链接。默认情况下，日志级别是debug，我没有发现任何可疑的内容。

max_requests / MAX_REQUESTS = 10