Python 固定UTF-8文本中的mojibake_Python_Utf 8_Character Encoding_Mojibake

Python 固定UTF-8文本中的mojibake

python utf-8 character-encoding

Python 固定UTF-8文本中的mojibake,python,utf-8,character-encoding,mojibake,Python,Utf 8,Character Encoding,Mojibake,我有一个UTF-8格式的葡萄牙语文本文件。不知何故，文件的生成者选择了错误的编码，文本中充满了：自动化工具不会发现文件有任何问题。我试图把它修好，但没有用。除了手动替换所有不正确的字符外，如何修复此文件？UTF-8编码的拉丁文1解释是“安德烈”（AndrÃ）而不是“安德烈”（André）。您可以通过反转编码/解码来修复它： >>> 'AndrÃ©'.encode('latin-1').decode('utf-8') 'André' 所有遵循此模式的情况都可以像这样修复

我有一个UTF-8格式的葡萄牙语文本文件。不知何故，文件的生成者选择了错误的编码，文本中充满了：

自动化工具不会发现文件有任何问题。我试图把它修好，但没有用。除了手动替换所有不正确的字符外，如何修复此文件？

UTF-8编码的拉丁文1解释是“安德烈”（AndrÃ）而不是“安德烈”（André）。您可以通过反转编码/解码来修复它：

>>> 'AndrÃ©'.encode('latin-1').decode('utf-8')
'André'

所有遵循此模式的情况都可以像这样修复

然而，我无法解释另一种情况（用“Ìá”表示“ç”，用“ÌÄ”表示“ã”），因此无法提供解决方案。如果你能找到一个编码解码器，其中“Ì”、“Ì”和“Ä”分别具有代码点C3、A7和A3，那么你可以用它来代替拉丁语-1来固定文本。

“IDENTIFICAÌÌÄO”很奇怪。你确定吗？你有更多这样的例子吗？

>>> 'AndrÃ©'.encode('latin-1').decode('utf-8')
'André'