如何从Scrapy获得UTF-8编码的unicode输出?
请容忍我。我正在写每一个细节,因为工具链的很多部分都不能很好地处理Unicode,而且不清楚什么地方出了问题 前奏曲 我们首先设置并使用了最近的刮痧如何从Scrapy获得UTF-8编码的unicode输出?,scrapy,Scrapy,请容忍我。我正在写每一个细节,因为工具链的很多部分都不能很好地处理Unicode,而且不清楚什么地方出了问题 前奏曲 我们首先设置并使用了最近的刮痧 source ~/.scrapy_1.1.2/bin/activate 由于终端的默认值是ascii,而不是unicode,因此我们设置: export LC_ALL=en_US.UTF-8 export LANG=en_US.UTF-8 另外,由于默认情况下Python使用ascii,我们修改了编码: export PYTHONIOENCOD
source ~/.scrapy_1.1.2/bin/activate
由于终端的默认值是ascii,而不是unicode,因此我们设置:
export LC_ALL=en_US.UTF-8
export LANG=en_US.UTF-8
另外,由于默认情况下Python使用ascii,我们修改了编码:
export PYTHONIOENCODING="utf_8"
现在我们准备开始一个艰难的项目
scrapy startproject myproject
cd myproject
scrapy genspider dorf PLACEHOLDER
有人告诉我们现在有一只蜘蛛
Created spider 'dorf' using template 'basic' in module:
myproject.spiders.dorf
我们将myproject/items.py
修改为:
# -*- coding: utf-8 -*-
import scrapy
class MyprojectItem(scrapy.Item):
title = scrapy.Field()
尝试1
现在我们根据urllib.unquote
# -*- coding: utf-8 -*-
import scrapy
import urllib
from myproject.items import MyprojectItem
class DorfSpider(scrapy.Spider):
name = "dorf"
allowed_domains = [u'http://en.sistercity.info/']
start_urls = (
u'http://en.sistercity.info/sister-cities/Düsseldorf.html',
)
def parse(self, response):
item = MyprojectItem()
item['title'] = urllib.unquote(
response.xpath('//title').extract_first().encode('ascii')
).decode('utf8')
return item
最后我们使用了一个(从2011年10月开始)
加
FEED_EXPORTERS = {
'json': 'myproject.exporters.UnicodeJsonLinesItemExporter',
}
到myproject/settings.py
现在我们跑
~/myproject> scrapy crawl dorf -o dorf.json -t json
我们得到
UnicodeEncodeError: 'ascii' codec can't encode character u'\xfc' in position 25: ordinal not in range(128)
尝试2
另一个解决方案(Scrapy 1.2的候选解决方案?)是使用spider
# -*- coding: utf-8 -*-
import scrapy
from myproject.items import MyprojectItem
class DorfSpider(scrapy.Spider):
name = "dorf"
allowed_domains = [u'http://en.sistercity.info/']
start_urls = (
u'http://en.sistercity.info/sister-cities/Düsseldorf.html',
)
def parse(self, response):
item = MyprojectItem()
item['title'] = response.xpath('//title')[0].extract()
return item
和
与
在myproject/settings.py
中
我们得到以下JSON文件
[
{"title": "<title>Sister cities of D\u00fcsseldorf \u2014 sistercity.info</title>"}
]
[
{“title”:“D\u00fcsseldorf\u2014 sistercity.info的姐妹城市”}
]
Unicode不是UTF-8编码的。虽然这对于几个字符来说是一个微不足道的问题,但是如果整个输出都是用外语的话,这将成为一个严重的问题
如何获得UTF-8 unicode格式的输出?请在您的尝试1上尝试此功能,并告诉我它是否有效(我在没有设置所有环境变量的情况下对其进行了测试)
范围(2)
用于测试json导出器,要获得DICT列表,您可以这样做:
# -*- coding: utf-8 -*-
from scrapy.contrib.exporter import JsonItemExporter
from scrapy.utils.serialize import ScrapyJSONEncoder
class UnicodeJsonLinesItemExporter(JsonItemExporter):
def __init__(self, file, **kwargs):
self._configure(kwargs, dont_fail=True)
self.file = file
self.encoder = ScrapyJSONEncoder(ensure_ascii=False, **kwargs)
self.first_item = True
在Scrapy 1.2+中有一个选项。当关闭JSON输出中非ascii符号的转义时。如何在scrapy Spider中添加提要导出编码将其放入settings.py文件
FEED_EXPORTERS = {
'json': 'myproject.exporters.Utf8JsonItemExporter',
}
[
{"title": "<title>Sister cities of D\u00fcsseldorf \u2014 sistercity.info</title>"}
]
def to_write(uni_str):
return urllib.unquote(uni_str.encode('utf8')).decode('utf8')
class CitiesSpider(scrapy.Spider):
name = "cities"
allowed_domains = ["sitercity.info"]
start_urls = (
'http://en.sistercity.info/sister-cities/Düsseldorf.html',
)
def parse(self, response):
for i in range(2):
item = SimpleItem()
item['title'] = to_write(response.xpath('//title').extract_first())
item['url'] = to_write(response.url)
yield item
# -*- coding: utf-8 -*-
from scrapy.contrib.exporter import JsonItemExporter
from scrapy.utils.serialize import ScrapyJSONEncoder
class UnicodeJsonLinesItemExporter(JsonItemExporter):
def __init__(self, file, **kwargs):
self._configure(kwargs, dont_fail=True)
self.file = file
self.encoder = ScrapyJSONEncoder(ensure_ascii=False, **kwargs)
self.first_item = True