Python 清理用刮痕刮去的数据
我已经使用scrapy在Python3.6中构建了两个scraper 然而,我经常会得到一些杂乱的数据,其中有一些奇怪的符号,比如Python 清理用刮痕刮去的数据,python,web-scraping,scrapy,Python,Web Scraping,Scrapy,我已经使用scrapy在Python3.6中构建了两个scraper 然而,我经常会得到一些杂乱的数据,其中有一些奇怪的符号,比如。我还发现,返回的是整个标语,而不是文本。例如,这: h3 class=“矩阵标题短清晰隐藏”h3,h3 class=“矩阵标题清除隐藏”/h3,h3 class=“矩阵标题 漫长的“51周” 已从此代码返回: response.xpath('//div/section/div/h3/text()').extract() 我不明白为什么它会返回整个标语,因为它只返回
。我还发现,返回的是整个标语,而不是文本。例如,这:
h3 class=“矩阵标题短清晰隐藏”h3,h3
class=“矩阵标题清除隐藏”/h3,h3 class=“矩阵标题
漫长的“51周”
已从此代码返回:
response.xpath('//div/section/div/h3/text()').extract()
我不明白为什么它会返回整个标语,因为它只返回薄壳中的文本 Python可以与unicode一起工作,如果您打印()提取的值,您就可以了。您能给出您试图爬网的页面的URL吗?