在python中获取html标记值
我是python的新手。下面是我在python 2.7.5上的代码在python中获取html标记值,python,html,parsing,tags,Python,Html,Parsing,Tags,我是python的新手。下面是我在python 2.7.5上的代码 import urllib2 import sys url ="mydomain.com" usock = urllib2.urlopen(url) data = usock.read() usock.close() print data 像这样获取HTML标记是可行的 我想做的是,从标记内部获取值。例如,我需要此示例中的数据值: <font class="big">Data</font&g
import urllib2
import sys
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
print data
像这样获取HTML标记是可行的
我想做的是,从
标记内部获取值。例如,我需要此示例中的数据值:
<font class="big">Data</font>
数据
如何操作?您可以使用HTML解析器模块,例如: 这将查找带有
class=“big”
的标记
。然后,它会打印其内容。使用:
导入lxml.html >>>root=lxml.html.fromstring('Data') >>>[font.text表示root.css中的字体选择('font.big')] [“数据”]
font
?哇,那真是又旧又邪恶的HTML。ImportError:没有名为bs4@heron它不在标准库中。检查我提供的链接以查找下载
from bs4 import BeautifulSoup as BS
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
soup = BS(data)
print soup.find('font', {'class':'big'}).text
import urllib2
import lxml.html
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
for font in lxml.html.fromstring(data).cssselect('font.big'):
print font.text
>>> import lxml.html
>>> root = lxml.html.fromstring('<font class="big">Data</font>')
>>> [font.text for font in root.cssselect('font.big')]
['Data']