Python 3.x Python_BeautifulSoup：从html文件中提取属性数据_Python 3.x_Beautifulsoup

Python 3.x Python_BeautifulSoup：从html文件中提取属性数据

python-3.x

Python 3.x Python_BeautifulSoup：从html文件中提取属性数据,python-3.x,beautifulsoup,Python 3.x,Beautifulsoup,我试图使用BeautifulSoup从HTML文件中提取一些属性信息。下面是我尝试过的示例HTML和代码分部收入和结果这是我的收入因此，集团在截至2018年12月31日的财年（“2018财年”）实现了34.846亿新元的可观收入。尽管2018财年收入同比下降13.0%，但合资企业实现了复合年增长率 2013财年至2018财年期间的8.4%——P11 2018财年毛利润增长191.3%，达到2625295.0百万新元（2017财年：901244.0百万新元） 2018财年GP利润率稳定

我试图使用BeautifulSoup从HTML文件中提取一些属性信息。下面是我尝试过的示例HTML和代码





分部收入和结果
这是我的收入
因此，集团在截至2018年12月31日的财年（“2018财年”）实现了34.846亿新元的可观收入。尽管2018财年收入同比下降13.0%，但合资企业实现了复合年增长率
2013财年至2018财年期间的8.4%——P11
2018财年毛利润增长191.3%，达到2625295.0百万新元（2017财年：901244.0百万新元）
2018财年GP利润率稳定在100.0%（2017财年：100.0%）

代码中有两个问题：

您正在查询的

div

元素没有任何

id

属性。（第一个

div

元素的子元素）

您需要使用

.get（“id”）

来访问

id

属性-

.id

被解释为

.find（'id'）

，它将返回

None

下面是一个工作示例：

从bs4导入美化组
html=“”



分部收入和结果
这是我的收入
因此，集团在截至2018年12月31日的财年（“2018财年”）实现了34.846亿新元的可观收入。尽管2018财年收入同比下降13.0%，但合资企业实现了复合年增长率
2013财年至2018财年期间的8.4%——P11
2018财年毛利润增长191.3%，达到2625295.0百万新元（2017财年：901244.0百万新元）
2018财年GP利润率稳定在100.0%（2017财年：100.0%）
'''
soup1=BeautifulSoup（html，“lxml”）
对于soup1.recursiveChildGenerator（）中的child1：
如果child1.name==“div”：
#对于child1.find_all（“div”）中的标记：
#打印（f'{child1.name}:{child1.text}'）
打印（f'{child1.name}:{child1.get（“id”）}）

输出：

div: rp_NaNnetSales
div: None
div: None
div: None
div: None
div: None
div: rp_grossProfit
div: rp_NaNgrossProfit
div: rp_grossProfitMarginPercentage