Python 如何解析文本中的越南语unicode字符

Python 如何解析文本中的越南语unicode字符,python,unicode,Python,Unicode,如何使用Python进行解码 [Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh 进入这个 [Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh 谢谢 我已经从上面的susgeted线程中尝试了以下代码: import re, HTMLParser title="[H

如何使用Python进行解码

[Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh
进入这个

[Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh
谢谢


我已经从上面的susgeted线程中尝试了以下代码:

import re, HTMLParser
title="[Hài kịch] Vợ ơi là vợ - Vân Sơn Bảo Liêm & Lê Huỳnh"
list_of_html = re.findall("&.+?;", title) 
for e in list_of_html:
    h = HTMLParser.HTMLParser()
    unescaped = h.unescape(e)
    title = title.replace(e, unescaped)
print title
但收到一条错误消息:

Unsupported characters in input 

因为我的标题是“k”ị五世ợ ơi vợ - Sơn Bả欧虎ỳnh”。我如何更正它?

可能重复查看您的正则表达式捕获的内容:它发现
“&Lê;”
——即使不是贪婪的——并且您有一个未替换的符号,这是HTML解析器不喜欢的。将正则表达式更改为:
r“&[A-Za-z]+;”