Python 如何使用具有相似属性的beautifulsoup提取数据

Python 如何使用具有相似属性的beautifulsoup提取数据,python,beautifulsoup,Python,Beautifulsoup,我正在尝试刮取一个保存的html页面的结果,并复制每个结果的条目,然后遍历文档。然而,我不知道如何缩小元素的范围。我要获取的数据位于以下每个“tr”标记下面的“td”标记中: 你的问题不清楚。您应该在代码段的上方和下方发布更多的html,尤其是预期输出的示例。请添加所需输出的示例,也许还有指向html文档的pastebin.com链接。感谢您的回复。以下是html:。我正在寻找所有这些标签中的详细信息:拥有html是朝着正确方向迈出的一步。现在,同样重要的是:不清楚“所有这些标签中的细节条目”是

我正在尝试刮取一个保存的html页面的结果,并复制每个结果的条目,然后遍历文档。然而,我不知道如何缩小元素的范围。我要获取的数据位于以下每个“tr”标记下面的“td”标记中:


你的问题不清楚。您应该在代码段的上方和下方发布更多的html,尤其是预期输出的示例。请添加所需输出的示例,也许还有指向html文档的pastebin.com链接。感谢您的回复。以下是html:。我正在寻找所有这些标签中的详细信息:拥有html是朝着正确方向迈出的一步。现在,同样重要的是:不清楚“所有这些标签中的细节条目”是什么意思。请在您的问题中发布您对html代码片段的准确预期输出。谢谢。我试图获得每个td标签的文本和每个标签的链接,然后迭代每个后续的bgcolor标签
<tr bgcolor="#d7d7d7">
<td valign="top" nowrap="">
Submittal<br>20190919-5000
<!-- ParentAccession= -->
<br>
</td>
<td valign="top">
    09/18/2019<br>
    09/19/2019
</td>
<td valign="top" nowrap="">
    ER19-2760-000<br>ER19-2762-000<br>ER19-2763-000<br>ER19-2764-000<br>ER1    9-2765-000<br>ER19-2766-000<br>ER19-2768-000<br><br>
</td>
<td valign="top">
(doc-less) Motion to Intervene of Snohomish County Public Utility     District No. 1 under ER19-2760, et. al..<br>Availability: Public<br>
</td>
<td valign="top">
<classtype>Intervention /<br> Motion/Notice of     Intervention</classtype>
</td>
<td valign="top">
<table valign="top">


<input type="HIDDEN" name="ext" value="TXT"><tbody><tr><td     valign="top"> <input type="checkbox" name="subcheck"    value="V:14800341:12904817:15359058:TXT"></td><td>&nbsp;<a    href="../common/opennat.asp?fileID=15359058">Text</a></td><td>&nbsp;&  nbsp;&nbsp;&nbsp;0K</td></tr><input type="HIDDEN" name="ext" value="PDF"><tr><td valign="top"> <input type="checkbox"      name="subcheck" value="V:14800341:12904822:15359063:PDF"></td><td>&nbsp;<a href="../common/opennat.asp?fileID=15359063">FERC Generated PDF</a></td><td>&nbsp;&nbsp;&nbsp;&nbsp;11K</td></tr>

    </tbody></table>
</td>
from bs4 import BeautifulSoup
import urllib
import re
soup = BeautifulSoup(open("/Users/Desktop/FERC/uploads/ferris_9-19-2019-9-19-2019.electric.submittal.html"), "html.parser")


data = []

for td in soup.findAll(bgcolor=["#d7d7d7", "White"]):
    values = [td[0].text.strip() for td in td.findAll('td')]
    data.append(values)
    print(data)