Python中带有编解码器模块的UnicodeDecodeError_Python_Regex_Unicode

Python中带有编解码器模块的UnicodeDecodeError

python regex unicode

Python中带有编解码器模块的UnicodeDecodeError,python,regex,unicode,Python,Regex,Unicode,我有一个文本文件，其中包含unicode字符串“aBiyukÙwa”、“varcasÙva”等。当我尝试在python解释器中使用以下代码对它们进行解码时，它工作正常，并解码为u'aBiyuk\xd9wa'： "aBiyukÙwa".decode("utf-8") 但是，当我使用下面代码中的编解码器模块从python程序中的文件中读取它时，它会抛出一个UnicodeDecodeError file = codecs.open('/home/abehl/TokenOutput.wx', 'r',

我有一个文本文件，其中包含unicode字符串“aBiyukÙwa”、“varcasÙva”等。当我尝试在python解释器中使用以下代码对它们进行解码时，它工作正常，并解码为

u'aBiyuk\xd9wa'

：

"aBiyukÙwa".decode("utf-8")

但是，当我使用下面代码中的

编解码器

模块从python程序中的文件中读取它时，它会抛出一个

UnicodeDecodeError

file = codecs.open('/home/abehl/TokenOutput.wx', 'r', 'utf-8')
for row in file:

以下是错误消息：

UnicodeDecodeError: 'utf8' codec can't decode byte 0xd9 in position 8: invalid continuation byte

知道是什么导致了这种奇怪的行为吗？

您的文件没有用UTF-8编码。找出它的编码格式，然后使用它。

您的文件不是用UTF-8编码的。找出它的编码格式，然后使用它。

ISO8859-[1,3,10,14-16]中的Ù是0xD9。ISO8859-[1,3,10,14-16]中的Ù是0xD9。