Unicode 转换болно&引用;西里尔语

Unicode 转换болно&引用;西里尔语,unicode,encoding,character-encoding,character,cyrillic,Unicode,Encoding,Character Encoding,Character,Cyrillic,我的数据库中有一个问题,其中一些西里尔文文本是这样看的。“Cyrillic text”(西里尔文)是这样的。有没有办法将其转换回人类可读的格式 我需要阅读这篇文章的实际背景 从你的数据中我能做的最好的……它看起来像西里尔语,但谷歌翻译没有做任何改变。它似乎是在默认的美国Windows编解码器下解码的,但实际上是UTF-8,但数据不太正确。我正在使用Python尝试修复它: >>> s.encode('cp1252').decode('utf8',errors='replace'

我的数据库中有一个问题,其中一些西里尔文文本是这样看的。
“Cyrillic text”(西里尔文)是这样的。有没有办法将其转换回人类可读的格式


我需要阅读这篇文章的实际背景

从你的数据中我能做的最好的……它看起来像西里尔语,但谷歌翻译没有做任何改变。它似乎是在默认的美国Windows编解码器下解码的,但实际上是UTF-8,但数据不太正确。我正在使用Python尝试修复它:

>>> s.encode('cp1252').decode('utf8',errors='replace')
'болно ба� амьдруулж ч �'

是用什么编码的?发布原始字节数据,而不是错误解码的mojibake。在Windows-1252中,以下字节与字符不对应:h81、h8D、h8F、h90和h9D。在UTF-8(
ñ
)中有一个前导hD1字节,它们分别对应于小西里尔字母С、э、ѐ、ѝ和ѝ。使用前导hD0(
Ð
),它将改为大写字母Ё、Ѝ、Џ、А和Б。这些是西里尔字母,将显示为替换字符
,因为OP没有提供确切的字节字符串,所以非法字节被简单地删除。如果这是俄语,那么被破坏的单词可能是ааааааааааааа‘和,也。