解码utf8文本python
我试图解码字符串列表中的字符串,例如解码utf8文本python,python,python-3.x,utf-8,Python,Python 3.x,Utf 8,我试图解码字符串列表中的字符串,例如'caf\\xc3\\xab'如果这是'café',我想要什么 我尝试了一些东西,但遇到了问题 当我这样做时: for i in range(len(words): words[i] = words[i].decode("utf8") 我仍然需要转换为字节类型,但我该怎么做 同样,当我这样做的时候,我需要去掉两个反斜杠,这样才能工作 b'caf\\xc3\\xab'.decode("utf8") 假设您有如下字符串: bef = 'caf\\xc
'caf\\xc3\\xab'
如果这是'café'
,我想要什么
我尝试了一些东西,但遇到了问题
当我这样做时:
for i in range(len(words):
words[i] = words[i].decode("utf8")
我仍然需要转换为字节类型,但我该怎么做
同样,当我这样做的时候,我需要去掉两个反斜杠,这样才能工作
b'caf\\xc3\\xab'.decode("utf8")
假设您有如下字符串:
bef = 'caf\\xc3\\xab'
要转换为“café
”,您可以执行以下操作:
aft = bef.encode().decode('unicode-escape').encode('latin1').decode('utf-8')
然后
print(aft)
应该显示“café”python2的str是字节,你可以使用unicode或ues python3(在python3中str是unicode)我使用python3,但从文件中读取特定格式的字符串words.decode()
不是就地操作,你需要捕获返回值:word=word.decode(“utf8”)
。(进一步注意:这只会更改循环变量word
的值,而不会更改words
中的元素)