Python 清理用刮痕刮去的数据_Python_Web Scraping_Scrapy

Python 清理用刮痕刮去的数据

python web-scraping scrapy

Python 清理用刮痕刮去的数据,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我已经使用scrapy在Python3.6中构建了两个scraper 然而，我经常会得到一些杂乱的数据，其中有一些奇怪的符号，比如。我还发现，返回的是整个标语，而不是文本。例如，这： h3 class=“矩阵标题短清晰隐藏”h3，h3 class=“矩阵标题清除隐藏”/h3，h3 class=“矩阵标题漫长的“51周” 已从此代码返回： response.xpath('//div/section/div/h3/text()').extract() 我不明白为什么它会返回整个标语，因为它只返回

我已经使用scrapy在Python3.6中构建了两个scraper

然而，我经常会得到一些杂乱的数据，其中有一些奇怪的符号，比如

。我还发现，返回的是整个标语，而不是文本。例如，这：

h3 class=“矩阵标题短清晰隐藏”h3，h3 class=“矩阵标题清除隐藏”/h3，h3 class=“矩阵标题漫长的“51周” 已从此代码返回：

response.xpath('//div/section/div/h3/text()').extract()

我不明白为什么它会返回整个标语，因为它只返回薄壳中的文本

Python可以与unicode一起工作，如果您打印（）提取的值，您就可以了。您能给出您试图爬网的页面的URL吗？