Python 如何解析文本中的越南语unicode字符_Python_Unicode

Python 如何解析文本中的越南语unicode字符

python unicode

Python 如何解析文本中的越南语unicode字符,python,unicode,Python,Unicode,如何使用Python进行解码 [Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh 进入这个 [Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh 谢谢我已经从上面的susgeted线程中尝试了以下代码： import re, HTMLParser title="[H

如何使用Python进行解码

[H&agrave;i kịch] Vợ ơi l&agrave; vợ - V&acirc;n Sơn Bảo Li&ecirc;m & L&ecirc; Huỳnh

进入这个

[Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh

谢谢

我已经从上面的susgeted线程中尝试了以下代码：

import re, HTMLParser
title="[H&agrave;i kịch] Vợ ơi l&agrave; vợ - V&acirc;n Sơn Bảo Li&ecirc;m & L&ecirc; Huỳnh"
list_of_html = re.findall("&.+?;", title) 
for e in list_of_html:
    h = HTMLParser.HTMLParser()
    unescaped = h.unescape(e)
    title = title.replace(e, unescaped)
print title

但收到一条错误消息：

Unsupported characters in input

因为我的标题是“k”ị五世ợ ơi vợ - Sơn Bả欧虎ỳnh”。我如何更正它？

可能重复查看您的正则表达式捕获的内容：它发现

“&Lê；”

——即使不是贪婪的——并且您有一个未替换的符号，这是HTML解析器不喜欢的。将正则表达式更改为：

r“&[A-Za-z]+；”

。