Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/python-2.7/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python Scrapy只处理iterable中的前10个请求_Python_Python 2.7_Scrapy - Fatal编程技术网

Python Scrapy只处理iterable中的前10个请求

Python Scrapy只处理iterable中的前10个请求,python,python-2.7,scrapy,Python,Python 2.7,Scrapy,我有一个爬虫程序,它从一个站点地图开始,抓取(几个)100个唯一的URL,然后对这100个页面进行进一步的处理。但是,我只收到前10个URL的回调。爬行器日志似乎只在前10个URL上调用HTTP GET class MySpider(scrapy.spider.BaseSpider): # settings ... def parse(self, response): urls = [...] for url in urls:

我有一个爬虫程序,它从一个站点地图开始,抓取(几个)100个唯一的URL,然后对这100个页面进行进一步的处理。但是,我只收到前10个URL的回调。爬行器日志似乎只在前10个URL上调用HTTP GET

class MySpider(scrapy.spider.BaseSpider):

    # settings ... 

    def parse(self, response):
        urls = [...]
        for url in urls:
            request = scrapy.http.Request(url, callback=self.parse_part2)
            print url
            yield request

    def parse_part2(self, response):
        print response.url
        # do more parsing here
我已经考虑过这些选择:

  • 打乱名单
  • 设置下载延迟(非常确定我没有速率限制)
  • dont\u filter=True arg
  • 返回请求数组而不是产生
  • 禁用并行请求
  • 有没有我不知道的神秘的最大因子标志


    编辑:日志,完全正常。
    2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
    耶,回电!
    2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
    2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
    2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
    2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
    2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
    耶,回电!
    耶,回电!
    耶,回电!
    耶,回电!
    耶,回电!
    2015-02-11 02:05:12-0800[mysite]调试:爬网(200)
    耶,回电!
    2015-02-11 02:05:13-0800[mysite]调试:已爬网(200)
    耶,回电!
    2015-02-11 02:05:13-0800[mysite]调试:已爬网(200)
    耶,回电!
    2015-02-11 02:05:13-0800[mysite]调试:已爬网(200)
    耶,回电!
    2015-02-11 02:05:13-0800[mysite]信息:关闭蜘蛛(已完成)
    2015-02-11 02:05:13-0800[我的网站]信息:正在倾倒垃圾统计数据:
    {'downloader/request_bytes':4590,
    “下载程序/请求计数”:11,
    “下载程序/请求方法/计数/获取”:11,
    “downloader/response_字节”:638496,
    “下载程序/响应计数”:11,
    “下载/响应状态\计数/200”:11,
    “完成原因”:“完成”,
    “完成时间”:datetime.datetime(2015,2,11,10,5,13,260322),
    “日志计数/调试”:17,
    “日志计数/信息”:3,
    “请求深度最大值”:1,
    “收到的响应数”:11,
    “调度程序/出列”:11,
    “调度程序/出列/内存”:11,
    “调度程序/排队”:11,
    “调度程序/排队/内存”:11,
    “开始时间”:datetime.datetime(2015,2,11,10,5,12,492811)}
    2015-02-11 02:05:13-0800[我的网站]信息:蜘蛛关闭(完成)
    
    尝试将日志级别设置为调试,您将看到更多日志


    如果你这样做了。请将它们粘贴到

    上,这样我就在我的一个设置文件中找到了这个属性

    max_requests / MAX_REQUESTS = 10
    

    蜘蛛提前退出(oops)的原因是什么?

    其他URL的格式是否无效?否,如果我设置URL=reversed(URL)或URL=URL[10:],我仍然会收到整整10次回调。有关配置的问题。深度限制值是多少?为什么不在规则中使用follow=True?深度限制默认为0,对吗?也就是说没有上限。另外follow=false,因为我有一个回调,它将手动处理我想要刮取的链接。默认情况下,日志级别是debug,我没有发现任何可疑的内容。
    max_requests / MAX_REQUESTS = 10