Python unicode的困境

Python unicode的困境,python,unicode,Python,Unicode,将“\xbb”转换为unicode字符串的正确方法是什么?我尝试了以下操作,但只得到UnicodeDecodeError: unicode('\xbb', 'utf-8') '\xbb'.decode('utf-8') 它看起来是拉丁1编码的。你应使用: unicode('\xbb',Latin-1')因为它来自Word,所以可能是CP1252 >>> print '\xbb'.decode('cp1252') » 不知道你想做什么。但在Python3中,所有字符串都是默

将“\xbb”转换为unicode字符串的正确方法是什么?我尝试了以下操作,但只得到UnicodeDecodeError:

unicode('\xbb', 'utf-8')

'\xbb'.decode('utf-8')

它看起来是拉丁1编码的。你应使用:


unicode('\xbb',Latin-1')

因为它来自Word,所以可能是CP1252

>>> print '\xbb'.decode('cp1252')
»

不知道你想做什么。但在Python3中,所有字符串都是默认的unicode。在Python2.X中,您必须使用
u'my unicode string\xbb'
(或双引号、三引号)来获取unicode字符串。当您想要打印unicode字符串时,必须使用输出设备(如终端)支持的字符集对其进行编码<例如,code>u'my unicode string\xbb'.endoce('iso-8859-1')。

它是有人从Word粘贴的文件的一部分(因此它是str)。如果键入print u'\xbb',将得到双箭头(>>)字符。