Python编码错误
我尝试刮网站和打印元字段。我得到了一个Python编码错误,python,Python,我尝试刮网站和打印元字段。我得到了一个UnicodeCodeer错误,但我通过在终端中使用chcp 65001解决了它(我使用的是Windows)。现在它工作得很好,但有些网站给了我奇怪的结果。我得到的是“wiczenia”而不是“wiczenia”。其他站点给出适当的值(例如“Ćwiczenia”) 为什么一次可以,另一次不行 这是我的方法: def description(self): description = self.soup.find_all(attrs={'name':
UnicodeCodeer错误
,但我通过在终端中使用chcp 65001解决了它(我使用的是Windows)。现在它工作得很好,但有些网站给了我奇怪的结果。我得到的是“wiczenia”而不是“wiczenia”。其他站点给出适当的值(例如“Ćwiczenia”)
为什么一次可以,另一次不行
这是我的方法:
def description(self):
description = self.soup.find_all(attrs={'name':
['description', 'Description']})
if description:
return(description[0]['content'])
它给了我一页很好的结果。另一方面
if description:
return(description[0]['content'].encode("windows-1252").decode("utf-8"))
修复它(我得到了正确的编码),但是当我用这种方法打开以前的站点时,我得到了一个错误:
“'charmap'编解码器无法对位置69中的字符'\u015b'进行编码”
我如何解决这个问题?如果你知道网站是如何编码的,那么你就知道如何解码。也许?这个有问题的站点在utf-8中。看起来应该不错。