Python 变革与发展#39变为正常字符
我在显示内容时遇到问题, 我的节目:Python 变革与发展#39变为正常字符,python,html,character-encoding,Python,Html,Character Encoding,我在显示内容时遇到问题, 我的节目: #! /usr/bin/python import urllib import re url = "http://yahoo.com" pattern = '''<span class="medium item-label".*?>(.*)</span>''' website = urllib.urlopen(url) pageContent = website.read() result = re.findall(patter
#! /usr/bin/python
import urllib
import re
url = "http://yahoo.com"
pattern = '''<span class="medium item-label".*?>(.*)</span>'''
website = urllib.urlopen(url)
pageContent = website.read()
result = re.findall(pattern, pageContent)
for record in result:
print record
所以问题是,为了在Python2中将'转换为字符,我应该在代码中包含什么:
In [16]: text = 'Ex-NFL QB's sad condition'
In [17]: import HTMLParser
In [18]: parser = HTMLParser.HTMLParser()
In [19]: parser.unescape(text)
Out[19]: u"Ex-NFL QB's sad condition"
在Python3中:
import html.parser as htmlparser
parser = htmlparser.HTMLParser()
parser.unescape(text)
Python 3的解决方案
import html
html.unescape(text)
不推荐使用
html.parser.HTMLParser.unescape
复制,应改用html.unescape
。阿披舍克的回答更符合时宜。
import html
html.unescape(text)