Python 如何在BeautifulSoup中查找具有特定属性的所有单元格?

Python 如何在BeautifulSoup中查找具有特定属性的所有单元格?,python,parsing,beautifulsoup,Python,Parsing,Beautifulsoup,我试图开发一个脚本,从大量html表中提取一些数据。一个问题是,包含用于创建列标题的信息的行数不确定。我发现标题行集合的最后一行具有每个单元格的属性border bottom,每个单元格都有一个值。因此,我决定查找具有属性border bottom的单元格。如你所见,我初始化了一个列表。我打算找到在borderCells列表中结束的每个单元格的父单元格。但是,当我运行这段代码时,只有一个单元格,即属性BorderBottom的allCells中的第一个单元格被添加到borderCells列表中。

我试图开发一个脚本,从大量html表中提取一些数据。一个问题是,包含用于创建列标题的信息的行数不确定。我发现标题行集合的最后一行具有每个单元格的属性border bottom,每个单元格都有一个值。因此,我决定查找具有属性border bottom的单元格。如你所见,我初始化了一个列表。我打算找到在borderCells列表中结束的每个单元格的父单元格。但是,当我运行这段代码时,只有一个单元格,即属性BorderBottom的allCells中的第一个单元格被添加到borderCells列表中。所有单元格共有193个单元格,其中9个单元格底部有attr边框。因此,我预计名单上会有九名成员。感谢您的帮助

borderCells=[]
for each in allCells:
if each.find(attrs={"style": re.compile("border-bottom")}):
    borderCells.append(each)
有什么理由吗

borderCells=soup.findAll(“td”,style=re.compile(“border-bottom”)})

不管用吗?很难弄清楚您到底想要什么,因为您对原始表的描述非常模糊,而且也不清楚allCells应该是什么


我建议您提供一个您正在使用的HTML的代表性示例,以及从该表中提取的“正确”结果。

您知道计算机总是正确的。答案是属性在html中的不同内容上。我在一些html上建模的内容如下:

<TD nowrap align="left" valign="bottom">
<DIV style="border-bottom: 1px solid #000000; width: 1%; padding-bottom: 1px">
<B>Name</B>
</DIV>
</TD>

名称
文件中style=“border bottom”等的其他位置如下所示:

<TD colspan="2" nowrap align="center" valign="bottom" style="border-bottom: 1px solid 00000">
<B>Location</B>
</TD>

位置

因此,现在我必须修改这个问题,以找出如何识别attr处于td级别而不是div级别的单元格。虽然我测试了他们的答案,但有人拿走了其中一个。谢谢你的帮助。这两个答案都起了作用。在我盯着代码看之后,我学到了更多关于如何发布问题的知识在一段时间内,我可能会学习更多关于Python和BeautifulSoup的知识