如何使用python解析包含CSS和HTML的网页
我试图从包含CSS和当然还有HTML的网页中解析和提取一些信息。我正在使用cssutils和beatifulsoup。假设我想找出表格标题使用的字体大小。Beautifulsoup告诉我表格定义在HTML中的位置。但是,如果我想知道表格中使用的是哪种样式,我可以从BeatifulSoup获得这些信息吗?如果没有,我该如何着手解决这个问题。谢谢你的帮助 是的,你明白了。完美的选择和正则表达式的强大威力:) 例如:如何使用python解析包含CSS和HTML的网页,python,html-parsing,beautifulsoup,Python,Html Parsing,Beautifulsoup,我试图从包含CSS和当然还有HTML的网页中解析和提取一些信息。我正在使用cssutils和beatifulsoup。假设我想找出表格标题使用的字体大小。Beautifulsoup告诉我表格定义在HTML中的位置。但是,如果我想知道表格中使用的是哪种样式,我可以从BeatifulSoup获得这些信息吗?如果没有,我该如何着手解决这个问题。谢谢你的帮助 是的,你明白了。完美的选择和正则表达式的强大威力:) 例如: 重新导入 从BeautifulSoup导入BeautifulSoup 汤=美汤(测试
重新导入
从BeautifulSoup导入BeautifulSoup
汤=美汤(测试)
style=soup.find('h1')['style']
关于findall('font-size[^;]+',style)
#[u'字体大小:12px']
你能给出示例代码吗?
import re
from BeautifulSoup import BeautifulSoup
soup = BeautifulSoup('<h1 style="font-size: 12px; margin: 5px">Test</h>')
style = soup.find('h1')['style']
re.findall('font-size[^;]+', style)
# [u'font-size: 12px']