Python Scrapy:重试图像下载后出现错误10054
我正在用python运行一个Scrapy spider来从网站上抓取图像。其中一张图片无法下载(即使我尝试定期通过网站下载),这是网站的内部错误。这很好,我不在乎尝试获取图像,我只想在图像失败时跳过该图像并转到其他图像,但我一直得到一个10054错误Python Scrapy:重试图像下载后出现错误10054,python,scrapy,urllib,Python,Scrapy,Urllib,我正在用python运行一个Scrapy spider来从网站上抓取图像。其中一张图片无法下载(即使我尝试定期通过网站下载),这是网站的内部错误。这很好,我不在乎尝试获取图像,我只想在图像失败时跳过该图像并转到其他图像,但我一直得到一个10054错误 > Traceback (most recent call last): File > "c:\python27\lib\site-packages\twisted\internet\defer.py", line 588, >
> Traceback (most recent call last): File
> "c:\python27\lib\site-packages\twisted\internet\defer.py", line 588,
> in _runCallbacks
> current.result = callback(current.result, *args, **kw) File "C:\Python27\Scripts\nhtsa\nhtsa\spiders\NHTSA_spider.py", line 137,
> in parse_photo_page
> self.retrievePhoto(base_url_photo + url[0], url_text) File "C:\Python27\Scripts\nhtsa\nhtsa\retrying.py", line 49, in wrapped_f
> return Retrying(*dargs, **dkw).call(f, *args, **kw) File "C:\Python27\Scripts\nhtsa\nhtsa\retrying.py", line 212, in call
> raise attempt.get() File "C:\Python27\Scripts\nhtsa\nhtsa\retrying.py", line 247, in get
> six.reraise(self.value[0], self.value[1], self.value[2]) File "C:\Python27\Scripts\nhtsa\nhtsa\retrying.py", line 200, in call
> attempt = Attempt(fn(*args, **kwargs), attempt_number, False) File "C:\Python27\Scripts\nhtsa\nhtsa\spiders\NHTSA_spider.py", line
> 216, in retrievePhoto
> code.write(f.read()) File "c:\python27\lib\socket.py", line 355, in read
> data = self._sock.recv(rbufsize) File "c:\python27\lib\httplib.py", line 612, in read
> s = self.fp.read(amt) File "c:\python27\lib\socket.py", line 384, in read
> data = self._sock.recv(left) error: [Errno 10054] An existing connection was forcibly closed by the remote
下面是我的解析函数,它查看照片页面并查找重要url:
def parse_photo_page(self, response):
for sel in response.xpath('//table[@id="tblData"]/tr'):
url = sel.xpath('td/font/a/@href').extract()
table_fields = sel.xpath('td/font/text()').extract()
if url:
base_url_photo = "http://www-nrd.nhtsa.dot.gov/"
url_text = table_fields[3]
url_text = string.replace(url_text, " ","")
url_text = string.replace(url_text," ","")
self.retrievePhoto(base_url_photo + url[0], url_text)
这是我使用重试装饰器的下载功能:
from retrying import retry
@retry(stop_max_attempt_number=5, wait_fixed=2000)
def retrievePhoto(self, url, filename):
fullPath = self.saveLocation + "/" + filename
urllib.urlretrieve(url, fullPath)
它重试下载5次,但随后抛出10054错误,不会继续下载下一个映像。重试后如何让蜘蛛继续?同样,我不关心下载问题图像,我只想跳过它。正确的是,不应该在scrapy中使用
urllib
,因为它会阻止一切。尝试阅读与“scrapy twisted”和“scrapy asynchronous”相关的资源。无论如何我不认为你的主要问题是“重试后继续”,而是没有在表达中使用“相关XPath”。这是一个适合我的版本(请注意./td/font/a/@href'
)中的/
:
这里有一个(更好的)版本,它遵循您的模式,但使用@paul trmbrth提到的ImagesPipeline
import scrapy
import string
import os
class MyspiderSpider(scrapy.Spider):
name = "myspider2"
start_urls = (
'file:index.html',
)
saveLocation = os.getcwd()
custom_settings = {
"ITEM_PIPELINES": {'scrapy.pipelines.images.ImagesPipeline': 1},
"IMAGES_STORE": saveLocation
}
def parse(self, response):
image_urls = []
image_texts = []
for sel in response.xpath('//table[@id="tblData"]/tr'):
url = sel.xpath('./td/font/a/@href').extract()
table_fields = sel.xpath('./td/font/text()').extract()
if url:
base_url_photo = "http://www-nrd.nhtsa.dot.gov/"
url_text = table_fields[3]
url_text = string.replace(url_text, " ","")
url_text = string.replace(url_text," ","")
image_urls.append(base_url_photo + url[0])
image_texts.append(url_text)
return {"image_urls": image_urls, "image_texts": image_texts}
我使用的演示文件如下:
$ cat index.html
<table id="tblData"><tr>
<td><font>hi <a href="img/2015/cav.jpg"> foo </a> <span /> <span /> green.jpg </font></td>
</tr><tr>
<td><font>hi <a href="img/2015/caw.jpg"> foo </a> <span /> <span /> blue.jpg </font></td>
</tr></table>
$cat index.html
嗨,格林.jpg
你好,blue.jpg
不建议混合使用同步网络IO(例如urllib.urlretrieve
)和异步IO(scrapy/twisted)。在任何情况下,在5次重试后,self.retrievePhoto(base\u url\u photo+url[0],url\u text)
仍会引发异常。您需要在try:。。。除此之外:…
如果要在parse\u photo\u页面
中继续循环迭代。Scrapy有一个快速检索图像的工具。谢谢你的评论,我现在正在尝试实现一个ImagesPipeline…无法正常工作,我对这些文档印象不深this@JohnK:你是说你想通过改进文档为开源项目做出贡献吗?@StevenAlmeroth有何评论?@JohnK:当然,最好的办法是发布一份声明,感谢你提议的对文档的更改@neverlastn!!我同意图像管道是前进的方向。昨天我试图实现一个管道,但没能让它正常工作。自定义设置的那个小片段为我做了,我认为我的settings.py文件没有被正确引用。再次感谢您的完整回答。不客气!:)我认为settings.py
是正确的方法<代码>自定义设置有点不太干净!我把它放在这里只是为了得到一个简单的自包含的答案,“实现一个管道”——这是非常棘手的。当你想知道如何做任何事的时候,不要忘了用谷歌搜索“任何扭曲的东西”。Scrapy是一个扭曲的应用程序,除非您使用扭曲的相关技术(不是例如urllib
),否则您的性能将受到影响。这里有几个例子:
$ cat index.html
<table id="tblData"><tr>
<td><font>hi <a href="img/2015/cav.jpg"> foo </a> <span /> <span /> green.jpg </font></td>
</tr><tr>
<td><font>hi <a href="img/2015/caw.jpg"> foo </a> <span /> <span /> blue.jpg </font></td>
</tr></table>