Python 以波斯语格式表示字节字符串序列
我有一个UTF-8字符序列,例如:Python 以波斯语格式表示字节字符串序列,python,utf-8,character-encoding,farsi,Python,Utf 8,Character Encoding,Farsi,我有一个UTF-8字符序列,例如: \xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\x
\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf
我知道这是一个波斯语网站,应该代表一些波斯语单词。
我如何用波斯语字符表示这个序列
我正在使用Python进行我的工作。您只需将字节序列视为字节序列,方法是在文本前面加上字母
b
,然后解码为UTF-8。像这样:
$ python3
>>> text = b'\xd8\xa2\xd8\xb4\xd9\x86\xd8\xa7\xdb\x8c\xdb\x8c \xd8\xa8\xd8\xa7 \xd8\xa2\xd8\xb1\xd9\x85\xd8\xa7\xd9\x86 \xd9\xbe\xd8\xb1\xd9\x88\xda\x98\xd9\x87 \xd9\x84\xd8\xba\xd8\xaa \xd9\x86\xd8\xa7\xd9\x85\xd9\x87 \xd8\xa2\xd8\xb2\xd8\xa7\xd8\xaf'
>>> text.decode('utf-8')
'آشنایی با آرمان پروژه لغت نامه آزاد'
这是不同的,因为在参考问题中,所有字符都以\u开头,但在我的例子中,所有字符都以\x开头。我建议您阅读jonrsharpe:我看了您的建议,它没有说明如何将字节字符串序列转换为波斯语字符。它们是波斯语字符,用ASCII表示;关于这个问题你能说得更具体些吗?是否要打印字符?是否将它们保存到文件?@jornsharpe OP的字符都不是ASCII。非常感谢,这正是我想要的,并解决了这个问题。