Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/71.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在python中获取html标记值_Python_Html_Parsing_Tags - Fatal编程技术网

在python中获取html标记值

在python中获取html标记值,python,html,parsing,tags,Python,Html,Parsing,Tags,我是python的新手。下面是我在python 2.7.5上的代码 import urllib2 import sys url ="mydomain.com" usock = urllib2.urlopen(url) data = usock.read() usock.close() print data 像这样获取HTML标记是可行的 我想做的是,从标记内部获取值。例如,我需要此示例中的数据值: <font class="big">Data</font&g

我是python的新手。下面是我在python 2.7.5上的代码

import urllib2
import sys       

url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()

print data
像这样获取HTML标记是可行的

我想做的是,从
标记内部获取值。例如,我需要此示例中的数据值:

<font class="big">Data</font>
数据

如何操作?

您可以使用HTML解析器模块,例如:

这将查找带有
class=“big”
的标记
。然后,它会打印其内容。

使用:


导入lxml.html >>>root=lxml.html.fromstring('Data') >>>[font.text表示root.css中的字体选择('font.big')] [“数据”]
font
?哇,那真是又旧又邪恶的HTML。ImportError:没有名为bs4@heron它不在标准库中。检查我提供的链接以查找下载
from bs4 import BeautifulSoup as BS
url ="mydomain.com"
usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
soup = BS(data)
print soup.find('font', {'class':'big'}).text
import urllib2
import lxml.html

url ="mydomain.com"

usock = urllib2.urlopen(url)
data = usock.read()
usock.close()
for font in lxml.html.fromstring(data).cssselect('font.big'):
    print font.text
>>> import lxml.html
>>> root = lxml.html.fromstring('<font class="big">Data</font>')
>>> [font.text for font in root.cssselect('font.big')]
['Data']