Python Scrapy导入100mb的XML提要-内存错误

Python Scrapy导入100mb的XML提要-内存错误,python,linux,performance,memory,scrapy,Python,Linux,Performance,Memory,Scrapy,我正在使用scrapy在AmazonEC2实例上创建一个100mb的XML提要。但是,我被卡住了,因为当它运行时,它会谈论内存错误。与我一起工作的编码员建议将100mb的文件分解成更易于管理的块,但我相信一定有更好的方法来实现这一点 日志: 我的问题是,我能做些什么来处理这个100mb的文件而不出现内存问题吗?scrapy总是尝试将整个输入数据解码为Unicode。在典型的宽Unicode构建中,这意味着一个100MB的HTML页面将扩展到400MB 那么,你怎样才能避免这种情况呢 使用更大(

我正在使用scrapy在AmazonEC2实例上创建一个100mb的XML提要。但是,我被卡住了,因为当它运行时,它会谈论内存错误。与我一起工作的编码员建议将100mb的文件分解成更易于管理的块,但我相信一定有更好的方法来实现这一点

日志:


我的问题是,我能做些什么来处理这个100mb的文件而不出现内存问题吗?

scrapy
总是尝试将整个输入数据解码为Unicode。在典型的宽Unicode构建中,这意味着一个100MB的HTML页面将扩展到400MB

那么,你怎样才能避免这种情况呢

  • 使用更大(64位)的EC2实例
  • 使用不同的库,它不需要像scrapy那样解码整个输入数据
  • 使用Python3.3或Python2.x的狭义Unicode版本,因此Unicode最终只能达到100MB或200MB,而不是400MB
  • 分块读取和处理数据

什么是“它谈论内存错误(泄漏)”的意思?你给我们看的追踪没有说任何泄漏的事。有一个
内存错误
而没有任何泄漏是很有可能的;如果您实际上试图使用的内存超过了现有的内存,即使您打算正确地处理它,这仍然是一个错误。同时,引发此异常的实际代码是什么?您使用的是什么版本的scrapy?原始帖子经过编辑以反映这一点(回复:内存错误)。我使用的是最新版本的scrapy。我不确定如何隔离导致这种情况的特定代码位。另外,您运行的是哪种EC2类型?比如说,如果您试图使用600MB的t1.micro,那么将100MB的cp1252字节解码为400MB的Unicode将失败;您唯一的选择是使用一个更大的实例,或者分块执行。
File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/iterators.py", line 22, in xmliter
        text = body_or_str(obj)
      File "/usr/local/lib/python2.7/dist-packages/scrapy/utils/response.py", line 22, in body_or_str
        return obj.body_as_unicode() if unicode else obj.body
      File "/usr/local/lib/python2.7/dist-packages/scrapy/http/response/text.py", line 62, in body_as_unicode
        self._cached_ubody = html_to_unicode(charset, self.body)[1]
      File "/usr/local/lib/python2.7/dist-packages/w3lib/encoding.py", line 173, in html_to_unicode
        return enc, to_unicode(html_body_str, enc)
      File "/usr/local/lib/python2.7/dist-packages/w3lib/encoding.py", line 118, in to_unicode
        return data_str.decode(encoding, 'w3lib_replace')
      File "/usr/lib/python2.7/encodings/cp1252.py", line 15, in decode
        return codecs.charmap_decode(input,errors,decoding_table)
    exceptions.MemoryError: 

2013-08-08 17:53:29+0000 [site] INFO: Closing spider (finished)
2013-08-08 17:53:29+0000 [site] INFO: Dumping Scrapy stats:
    {'downloader/request_bytes': 241,
     'downloader/request_count': 1,
     'downloader/request_method_count/GET': 1,
     'downloader/response_bytes': 103257370,
     'downloader/response_count': 1,
     'downloader/response_status_count/200': 1,
     'finish_reason': 'finished',
     'finish_time': datetime.datetime(2013, 8, 8, 17, 53, 29, 166687),
     'log_count/DEBUG': 7,
     'log_count/ERROR': 1,
     'log_count/INFO': 4,
     'response_received_count': 1,
     'scheduler/dequeued': 1,
     'scheduler/dequeued/memory': 1,
     'scheduler/enqueued': 1,
     'scheduler/enqueued/memory': 1,
     'spider_exceptions/MemoryError': 1,
     'start_time': datetime.datetime(2013, 8, 8, 17, 53, 26, 375069)}
2013-08-08 17:53:29+0000 [site] INFO: Spider closed (finished)