Python 将html实体转换为文本
我有Python 将html实体转换为文本,python,beautifulsoup,html-entities,html-parsing,Python,Beautifulsoup,Html Entities,Html Parsing,我有和#146在我的HTML文件中(这是一个右引号),我想将其转换为文本(如果可能的话) 我尝试使用HTMLPasser和BeautifulSoup,但没有成功 >>> h = HTMLParser.HTMLParser() >>> h.unescape("'") u"'" >>> h.unescape("’") u'\x92' # I was hoping for a right curly quote h
和#146代码>在我的HTML文件中(这是一个右引号),我想将其转换为文本(如果可能的话)
我尝试使用HTMLPasser和BeautifulSoup,但没有成功
>>> h = HTMLParser.HTMLParser()
>>> h.unescape("'")
u"'"
>>> h.unescape("’")
u'\x92' # I was hoping for a right curly quote here.
我的目标很简单:接受html输入并输出所有文本(没有任何html代码)。右卷曲引号不是ascii字符u'\x92'
是表示它的unicode字符的python表示,而不是一些“html代码”
要在终端中正确显示,请使用print h.unescape(;”).encode('utf-8')
(或终端的任何字符集)