Python 将html实体转换为文本

Python 将html实体转换为文本,python,beautifulsoup,html-entities,html-parsing,Python,Beautifulsoup,Html Entities,Html Parsing,我有和#146在我的HTML文件中(这是一个右引号),我想将其转换为文本(如果可能的话) 我尝试使用HTMLPasser和BeautifulSoup,但没有成功 >>> h = HTMLParser.HTMLParser() >>> h.unescape("'") u"'" >>> h.unescape("’") u'\x92' # I was hoping for a right curly quote h

我有
和#146在我的HTML文件中(这是一个右引号),我想将其转换为文本(如果可能的话)

我尝试使用HTMLPasser和BeautifulSoup,但没有成功

>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.
我的目标很简单:接受html输入并输出所有文本(没有任何html代码)。

右卷曲引号不是ascii字符
u'\x92'
是表示它的unicode字符的python表示,而不是一些“html代码”

要在终端中正确显示,请使用
print h.unescape(’;”).encode('utf-8')
(或终端的任何字符集)