Python 3.x Python_BeautifulSoup:从html文件中提取属性数据
我试图使用BeautifulSoup从HTML文件中提取一些属性信息。下面是我尝试过的示例HTML和代码Python 3.x Python_BeautifulSoup:从html文件中提取属性数据,python-3.x,beautifulsoup,Python 3.x,Beautifulsoup,我试图使用BeautifulSoup从HTML文件中提取一些属性信息。下面是我尝试过的示例HTML和代码 分部收入和结果 这是我的收入 因此,集团在截至2018年12月31日的财年(“2018财年”)实现了34.846亿新元的可观收入。尽管2018财年收入同比下降13.0%,但合资企业实现了复合年增长率 2013财年至2018财年期间的8.4%——P11 2018财年毛利润增长191.3%,达到2625295.0百万新元(2017财年:901244.0百万新元) 2018财年GP利润率稳定
分部收入和结果
这是我的收入
因此,集团在截至2018年12月31日的财年(“2018财年”)实现了34.846亿新元的可观收入。尽管2018财年收入同比下降13.0%,但合资企业实现了复合年增长率
2013财年至2018财年期间的8.4%——P11
2018财年毛利润增长191.3%,达到2625295.0百万新元(2017财年:901244.0百万新元)
2018财年GP利润率稳定在100.0%(2017财年:100.0%)
代码中有两个问题:
div
元素没有任何id
属性。(第一个div
元素的子元素).get(“id”)
来访问id
属性-.id
被解释为.find('id')
,它将返回None
从bs4导入美化组
html=“”
分部收入和结果
这是我的收入
因此,集团在截至2018年12月31日的财年(“2018财年”)实现了34.846亿新元的可观收入。尽管2018财年收入同比下降13.0%,但合资企业实现了复合年增长率
2013财年至2018财年期间的8.4%——P11
2018财年毛利润增长191.3%,达到2625295.0百万新元(2017财年:901244.0百万新元)
2018财年GP利润率稳定在100.0%(2017财年:100.0%)
'''
soup1=BeautifulSoup(html,“lxml”)
对于soup1.recursiveChildGenerator()中的child1:
如果child1.name==“div”:
#对于child1.find_all(“div”)中的标记:
#打印(f'{child1.name}:{child1.text}')
打印(f'{child1.name}:{child1.get(“id”)})
输出:
div: rp_NaNnetSales
div: None
div: None
div: None
div: None
div: None
div: rp_grossProfit
div: rp_NaNgrossProfit
div: rp_grossProfitMarginPercentage