在python中获取html标记值_Python_Html_Parsing_Tags

在python中获取html标记值

python html parsing tags

在python中获取html标记值,python,html,parsing,tags,Python,Html,Parsing,Tags,我是python的新手。下面是我在python 2.7.5上的代码 import urllib2 import sys url ="mydomain.com" usock = urllib2.urlopen(url) data = usock.read() usock.close() print data 像这样获取HTML标记是可行的我想做的是，从标记内部获取值。例如，我需要此示例中的数据值： <font class="big">Data</font&g

我是python的新手。下面是我在python 2.7.5上的代码

import urllib2
import sys       

url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()

print data

像这样获取HTML标记是可行的

我想做的是，从

标记内部获取值。例如，我需要此示例中的数据值：

<font class="big">Data</font>

数据

如何操作？

您可以使用HTML解析器模块，例如：

这将查找带有

class=“big”

的标记

。然后，它会打印其内容。

使用：

导入lxml.html >>>root=lxml.html.fromstring（'Data'） >>>[font.text表示root.css中的字体选择（'font.big'）] [“数据”]

font

？哇，那真是又旧又邪恶的HTML。ImportError：没有名为bs4@heron它不在标准库中。检查我提供的链接以查找下载

from bs4 import BeautifulSoup as BS
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
soup = BS(data)
print soup.find('font', {'class':'big'}).text

import urllib2
import lxml.html

url ="mydomain.com"

usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
for font in lxml.html.fromstring(data).cssselect('font.big'):
    print font.text

>>> import lxml.html
>>> root = lxml.html.fromstring('<font class="big">Data</font>')
>>> [font.text for font in root.cssselect('font.big')]
['Data']