Python 固定UTF-8文本中的mojibake

Python 固定UTF-8文本中的mojibake,python,utf-8,character-encoding,mojibake,Python,Utf 8,Character Encoding,Mojibake,我有一个UTF-8格式的葡萄牙语文本文件。不知何故,文件的生成者选择了错误的编码,文本中充满了: 自动化工具不会发现文件有任何问题。我试图把它修好,但没有用。 除了手动替换所有不正确的字符外,如何修复此文件?UTF-8编码的拉丁文1解释是“安德烈”(AndrÃ)而不是“安德烈”(André)。 您可以通过反转编码/解码来修复它: >>> 'André'.encode('latin-1').decode('utf-8') 'André' 所有遵循此模式的情况都可以像这样修复

我有一个UTF-8格式的葡萄牙语文本文件。不知何故,文件的生成者选择了错误的编码,文本中充满了:

自动化工具不会发现文件有任何问题。我试图把它修好,但没有用。 除了手动替换所有不正确的字符外,如何修复此文件?

UTF-8编码的拉丁文1解释是“安德烈”(AndrÃ)而不是“安德烈”(André)。 您可以通过反转编码/解码来修复它:

>>> 'André'.encode('latin-1').decode('utf-8')
'André'
所有遵循此模式的情况都可以像这样修复

然而,我无法解释另一种情况(用“Ìá”表示“ç”,用“ÌÄ”表示“ã”),因此无法提供解决方案。 如果你能找到一个编码解码器,其中“Ì”、“Ì”和“Ä”分别具有代码点C3、A7和A3,那么你可以用它来代替拉丁语-1来固定文本。

“IDENTIFICAÌÌÄO”很奇怪。你确定吗?你有更多这样的例子吗?
>>> 'André'.encode('latin-1').decode('utf-8')
'André'