Python 将包含（html）em破折号的字符串转换为统一形式？_Python_Python Unicode

Python 将包含（html）em破折号的字符串转换为统一形式？

python

Python 将包含（html）em破折号的字符串转换为统一形式？,python,python-unicode,Python,Python Unicode,可以用两种形式编写十进制形式— 十六进制形式— 当它们被翻译成html格式（显示在浏览器中）时，它们会显示相同的内容，即（-），em破折号现在，当em破折号再次被翻译成python时，它会被更改为\u2014 我的问题，给出了一系列的—；或—；，有没有办法将它们都转换为\u2014？试试。这是一个用于修复unicode问题的python库。您需要的是一个html解析器 #!/bin/python import HTMLParser parser

可以用两种形式编写

十进制形式—
十六进制形式—

当它们被翻译成html格式（显示在浏览器中）时，它们会显示相同的内容，即（-），em破折号

现在，当em破折号再次被翻译成python时，它会被更改为\u2014

我的问题，给出了一系列的—；或—；，有没有办法将它们都转换为\u2014？

试试。这是一个用于修复unicode问题的python库。

您需要的是一个html解析器

#!/bin/python
import HTMLParser
parser=HTMLParser.HTMLParser()
print(parser.unescape("&#8212;"))

结果

—

有人回答了我的问题，当我想把它标记为答案时，这篇文章似乎已经被删除了。多亏了原来的海报

以下是他发布的答案：-

>>> import HTMLParser
>>> p = HTMLParser.HTMLParser()

>>> p.unescape(u'test8212 &#8212; aaa')
u'test8212 \u2014 aaa'

>>> p.unescape(u'test8212 &#x2014; aaa')
u'test8212 \u2014 aaa'

隐马尔可夫模型。。。。我刚刚看到有人发布了一个答案，我想这就是我想要的答案。当我点击勾号试图将其标记为答案时，不知怎的，它说帖子已经被删除了……那是我……我将取消删除答案，因为我不确定这是你要找的