Python 与另一侧的连接以不干净的方式丢失
然后我跑“刮痧爬虫” 然后我得到了这个错误: 2013-09-14 13:20:56+0700[dmoz]调试:重试http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (失败1次):与另一侧的连接在非清洁环境中丢失 时尚Python 与另一侧的连接以不干净的方式丢失,python,scrapy,Python,Scrapy,然后我跑“刮痧爬虫” 然后我得到了这个错误: 2013-09-14 13:20:56+0700[dmoz]调试:重试http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/> (失败1次):与另一侧的连接在非清洁环境中丢失 时尚 有人知道如何解决这个问题吗?您需要检查您的internet连接,或者如果您正在使用代理,请为代理身份验证设置环境变量 在windows中,请尝试以下步骤: Win+R类型“系统属性高级”(
有人知道如何解决这个问题吗?您需要检查您的internet连接,或者如果您正在使用代理,请为代理身份验证设置环境变量 在windows中,请尝试以下步骤:
另一种方法:听起来像是web服务器或连接问题。你在这里无能为力。请稍后再试。谢谢您的回答!这对我有用!我没有注意到我的笔记本电脑使用代理连接到互联网!linux用户呢?@AlbertoLópezPérez要在linux中设置环境变量,可以使用
导出HTTP_代理=http://username:password@主机:端口
from scrapy.spider import BaseSpider
class dmozSpider(BaseSpider):
name = "dmoz"
allowed_domains = ["dmoz.org"]
start_urls = [
"http://www.dmoz.org/Computers/Programming/Languages/Python/Books/",
"http://www.dmoz.org/Computers/Programming/Languages/Python/Resources/"
]
def parse(self, response):
filename = response.url.split("/")[-2]
open(filename, 'wb').write(response.body)
name | value
------------+--------------------------------
HTTP_PROXY | http://username:password@host:port
HTTPS_PROXY | https://username:password@host:port