Python&;BS4 |获取具有特定文本内容的所有表格数据
我对Python和web抓取非常陌生,因此提出以下问题 我只想得到包含特定内容的表 这是HTML的外观: 它不是此脚本中的第一个表,因此我要选择Python&;BS4 |获取具有特定文本内容的所有表格数据,python,html,beautifulsoup,Python,Html,Beautifulsoup,我对Python和web抓取非常陌生,因此提出以下问题 我只想得到包含特定内容的表 这是HTML的外观: 它不是此脚本中的第一个表,因此我要选择 </TABLE></TD></TR> <TR> <TD COLSPAN=7 class='x2'> </TD> </TR> <TR> <TD style="vertical-a
</TABLE></TD></TR>
<TR>
<TD COLSPAN=7 class='x2'>
</TD>
</TR>
<TR>
<TD style="vertical-align:bottom" class='x3'>
EingangsdatumDMYY</TD>
<TD style="vertical-align:bottom" class='x4'>
Techniker</TD>
<TD style="vertical-align:bottom" class='x5'>
Techn.</TD>
<TD style="vertical-align:bottom" class='x6'>
Kunde</TD>
<TD style="vertical-align:bottom" class='x7'>
OffAuftrag</TD>
<TD style="vertical-align:bottom" class='x8'>
Planungsdatum</TD>
<TD style="vertical-align:bottom" class='x8'>
Herstellerreferenz</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x17_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x18_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product B**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x19_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
现在问题是:
我确实得到了第一行,但我想搜索整个网站,搜索其中包含文本“Product A”的每个表,并将父表保存在一个数组中
例如:
代码完成后,输出为:
<TD class='x17_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
<TD class='x19_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
1000000,状态,技术,日期时间,**产品A**
1000000,状态,技术,日期时间,**产品A**
因此,守则必须:
1) 搜索HTML并搜索文本“Product A”
2) 抓取父标记并将其保存在变量中。
3) 重复整个HTML
我感激地接受每一笔小费-
谢谢并致以最良好的问候
Yanick L.您可以在
Bs4
中使用正则表达式来查找包含特定文本的元素
如果你想搜索所有包含特定字符串的td
,你需要这个
import re
from bs4 import BeautifulSoup
page = '''
<TR>
<TD COLSPAN=7 class='x2'>
</TD>
</TR>
<TR>
<TD style="vertical-align:bottom" class='x3'>
EingangsdatumDMYY</TD>
<TD style="vertical-align:bottom" class='x4'>
Techniker</TD>
<TD style="vertical-align:bottom" class='x5'>
Techn.</TD>
<TD style="vertical-align:bottom" class='x6'>
Kunde</TD>
<TD style="vertical-align:bottom" class='x7'>
OffAuftrag</TD>
<TD style="vertical-align:bottom" class='x8'>
Planungsdatum</TD>
<TD style="vertical-align:bottom" class='x8'>
Herstellerreferenz</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x17_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x18_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product B**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x19_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
'''
soup = BeautifulSoup(page, 'html.parser')
tables = soup.findChildren('td', text=re.compile(r'Product A'))
print(tables)
重新导入
从bs4导入BeautifulSoup
页码=“”
EingangsdatumDMYY
技术工
Techn。
昆德
奥夫特拉格酒店
平面
赫氏
日期
违约
00000001
公司名称
1000000,状态,技术,日期时间,**产品A**
日期
违约
00000001
公司名称
1000000,状态,技术,日期时间,**产品B**
日期
违约
00000001
公司名称
1000000,状态,技术,日期时间,**产品A**
'''
soup=BeautifulSoup(页面“html.parser”)
tables=soup.findChildren('td',text=re.compile(r'producta'))
打印(表格)
您可以在Bs4
中使用正则表达式来查找包含特定文本的元素
如果你想搜索所有包含特定字符串的td
,你需要这个
import re
from bs4 import BeautifulSoup
page = '''
<TR>
<TD COLSPAN=7 class='x2'>
</TD>
</TR>
<TR>
<TD style="vertical-align:bottom" class='x3'>
EingangsdatumDMYY</TD>
<TD style="vertical-align:bottom" class='x4'>
Techniker</TD>
<TD style="vertical-align:bottom" class='x5'>
Techn.</TD>
<TD style="vertical-align:bottom" class='x6'>
Kunde</TD>
<TD style="vertical-align:bottom" class='x7'>
OffAuftrag</TD>
<TD style="vertical-align:bottom" class='x8'>
Planungsdatum</TD>
<TD style="vertical-align:bottom" class='x8'>
Herstellerreferenz</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x17_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x18_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product B**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
<TR>
<TD class='x9_0'>
DATE </TD>
<TD class='x10_0'>
default</TD>
<TD class='x11_0'>
00000001</TD>
<TD class='x12_0'>
Company Name</TD>
<TD class='x19_0'>
1000000 ,STATUS, TECH, DATE TIME, **Product A**</TD>
<TD class='x14_0'>
</TD>
<TD class='x15_0'>
</TD>
</TR>
'''
soup = BeautifulSoup(page, 'html.parser')
tables = soup.findChildren('td', text=re.compile(r'Product A'))
print(tables)
重新导入
从bs4导入BeautifulSoup
页码=“”
EingangsdatumDMYY
技术工
Techn。
昆德
奥夫特拉格酒店
平面
赫氏
日期
违约
00000001
公司名称
1000000,状态,技术,日期时间,**产品A**
日期
违约
00000001
公司名称
1000000,状态,技术,日期时间,**产品B**
日期
违约
00000001
公司名称
1000000,状态,技术,日期时间,**产品A**
'''
soup=BeautifulSoup(页面“html.parser”)
tables=soup.findChildren('td',text=re.compile(r'producta'))
打印(表格)
对于bs4 4.7.1+,您可以使用:contains获取包含特定文本的表格
tables = soup.select('table:contains("Product A")')
print(tables)
带有td的表格,如果您需要更具体地显示文本,但需要整个表格:
tables = soup.select('table:has(td:contains("Product A"))')
print(tables)
在bs4.7.1+中,您可以使用:contains获取包含特定文本的表
tables = soup.select('table:contains("Product A")')
print(tables)
带有td的表格,如果您需要更具体地显示文本,但需要整个表格:
tables = soup.select('table:has(td:contains("Product A"))')
print(tables)
谢谢你的工作:D我可以选择下一个td吗?现在你已经找到了你需要的所有
td
,它们存储在一个列表中,你可以使用列表索引选择它们。在上面的示例中,它们存储在tables
变量中,因此您可以使用tables[0]
选择第一个,使用tables[1]
选择第二个。感谢这一点:D我可以选择下一个td吗?现在您已经找到了所需的所有td
,它们存储在一个列表中,您可以使用列表索引选择它们。在上面的示例中,它们存储在tables
变量中,因此您可以使用tables[0]
选择第一个,使用tables[1]
选择第二个