Python 通过将自定义元素转换为ASCII实现HTML Unescape?

Python 通过将自定义元素转换为ASCII实现HTML Unescape?,python,unicode,escaping,Python,Unicode,Escaping,我需要从字符串中取消一些HTML实体的显示 但是对于像”这样的少数字符&rsquo&ldquo”'我想用最近的ASCII替换。所有其他的都需要脱光 在Python中如何实现这一点?我尝试了下面的代码片段,但它没有按照我想要的方式“最接近” import HTMLParser import unicodedata parser = HTMLParser.HTMLParser() parsed = parser.unescape("‘") nearest = unic

我需要从字符串中取消一些HTML实体的显示

但是对于像
”这样的少数字符&rsquo&ldquo”'我想用最近的ASCII替换。所有其他的都需要脱光

在Python中如何实现这一点?我尝试了下面的代码片段,但它没有按照我想要的方式“最接近”

import HTMLParser
import unicodedata
parser = HTMLParser.HTMLParser()
parsed = parser.unescape("‘")
nearest = unicodedata.normalize('NFKD', parsed).encode('ascii','ignore')
上述代码中最近的
为空。我是否可以向HTMLParser.unescape提供一个参数以将其转换为ASCII引号?我想提供如下自定义映射:{“&lsquo”:“,”&rsquo”:“},其中映射中的项目应转换为ASCII


xml.sax.parse
有一些API
unescape(html_text,entities={'':'','':'''''})
,HTMLParser是否有类似的功能。

与其映射html实体,为什么不在这里使用呢?它会将引号映射为ASCII等价物,所以你的意思是使用第三方库,如果我们有一些stdlib解决方案,我不太愿意这样做。谢谢你的指针,因为它值得检查。可能是重复的