Python 通过将自定义元素转换为ASCII实现HTML Unescape？_Python_Unicode_Escaping

Python 通过将自定义元素转换为ASCII实现HTML Unescape？

python unicode

Python 通过将自定义元素转换为ASCII实现HTML Unescape？,python,unicode,escaping,Python,Unicode,Escaping,我需要从字符串中取消一些HTML实体的显示但是对于像”这样的少数字符&rsquo&ldquo&rdquo；'我想用最近的ASCII替换。所有其他的都需要脱光在Python中如何实现这一点？我尝试了下面的代码片段，但它没有按照我想要的方式“最接近” import HTMLParser import unicodedata parser = HTMLParser.HTMLParser() parsed = parser.unescape("‘") nearest = unic

我需要从字符串中取消一些HTML实体的显示

但是对于像

”这样的少数字符&rsquo&ldquo&rdquo；'我想用最近的ASCII替换。所有其他的都需要脱光
在Python中如何实现这一点？我尝试了下面的代码片段，但它没有按照我想要的方式“最接近”
import HTMLParser
import unicodedata
parser = HTMLParser.HTMLParser()
parsed = parser.unescape("&lsquo;")
nearest = unicodedata.normalize('NFKD', parsed).encode('ascii','ignore')

上述代码中最近的

为空。我是否可以向HTMLParser.unescape提供一个参数以将其转换为ASCII引号？我想提供如下自定义映射：{“&lsquo”：“，”&rsquo”：“}，其中映射中的项目应转换为ASCII

xml.sax.parse

有一些API

unescape（html_text，entities={''：''，''：'''''}）

，HTMLParser是否有类似的功能。

与其映射html实体，为什么不在这里使用呢？它会将引号映射为ASCII等价物，所以你的意思是使用第三方库，如果我们有一些stdlib解决方案，我不太愿意这样做。谢谢你的指针，因为它值得检查。可能是重复的