Python 清理用刮痕刮去的数据

Python 清理用刮痕刮去的数据,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我已经使用scrapy在Python3.6中构建了两个scraper 然而,我经常会得到一些杂乱的数据,其中有一些奇怪的符号,比如。我还发现,返回的是整个标语,而不是文本。例如,这: h3 class=“矩阵标题短清晰隐藏”h3,h3 class=“矩阵标题清除隐藏”/h3,h3 class=“矩阵标题 漫长的“51周” 已从此代码返回: response.xpath('//div/section/div/h3/text()').extract() 我不明白为什么它会返回整个标语,因为它只返回

我已经使用scrapy在Python3.6中构建了两个scraper

然而,我经常会得到一些杂乱的数据,其中有一些奇怪的符号,比如
。我还发现,返回的是整个标语,而不是文本。例如,这:

h3 class=“矩阵标题短清晰隐藏”h3,h3 class=“矩阵标题清除隐藏”/h3,h3 class=“矩阵标题 漫长的“51周” 已从此代码返回:

response.xpath('//div/section/div/h3/text()').extract()

我不明白为什么它会返回整个标语,因为它只返回薄壳中的文本

Python可以与unicode一起工作,如果您打印()提取的值,您就可以了。您能给出您试图爬网的页面的URL吗?