Python 3.x 如何使用python beautifulsoup提取表中行之间的蓝色隐藏文本_Python 3.x_Beautifulsoup

Python 3.x 如何使用python beautifulsoup提取表中行之间的蓝色隐藏文本

python-3.x

Python 3.x 如何使用python beautifulsoup提取表中行之间的蓝色隐藏文本,python-3.x,beautifulsoup,Python 3.x,Beautifulsoup,尝试爬网表行中第2行和第3行之后的所有隐藏注释，但提取失败我尝试了下面的代码来删除这些注释，但失败了。下面是我的代码。请帮助我有人破解这个问题 from bs4 import BeautifulSoup,Comment import requests r =requests.get('http://www.esuppliersindia.com/krishna-agro- traders/aboutus-p17322178-u10731500-swa.html') soup =

尝试爬网表行中第2行和第3行之后的所有隐藏注释，但提取失败

我尝试了下面的代码来删除这些注释，但失败了。下面是我的代码。请帮助我有人破解这个问题

from bs4 import BeautifulSoup,Comment

import requests

r =requests.get('http://www.esuppliersindia.com/krishna-agro- 
  traders/aboutus-p17322178-u10731500-swa.html')

soup = BeautifulSoup(r.text,'lxml')

table = soup.find('table',class_='text-listing')

trs = table.find_all('tr')

for tr in trs[2:3]:

   print(tr.text)

for tr in trs[3:4].find_next_sibling('td'):

   print(tr.text)

但我不确定你们是否在关注下面表中的评论

from bs4 import BeautifulSoup,Comment
import requests
r =requests.get('http://www.esuppliersindia.com/krishna-agro-traders/aboutus-p17322178-u10731500-swa.html')

soup = BeautifulSoup(r.text,'lxml')
table = soup.find('table',class_='text-listing')
comments=table.find_all(string=lambda text:isinstance(text,Comment))
print(comments[0].split('</tr>')[0])
for i in range(1,len(comments)):
  print(comments[i])

来自bs4导入美化组的

，注释
导入请求
r=请求。获取（'http://www.esuppliersindia.com/krishna-agro-traders/aboutus-p17322178-u10731500-swa.html')
soup=BeautifulSoup（r.text，'lxml'）
table=soup.find（'table'，class='text-listing'）
注释=表格。查找所有（字符串=lambda文本：isinstance（文本，注释））
打印（注释[0]。拆分（“”）[0]）
对于范围（1，len（注释））中的i：
打印（评论[i]）

我会像那样打印输出

<td align="right" bgcolor="#FFFFFF" class="text-f11-b">No. Of Employees</td>
<td bgcolor="#FFFFFF" class="text-f11">10</td>

<tr>
<td align="right" bgcolor="#FFFFFF" class="text-f11-b">Export Turnover</td>
<td bgcolor="#FFFFFF" class="text-f11"></td>
</tr>


<tr>
<td align="right" valign="top" bgcolor="#FFFFFF" class="text-f11-b">Annual Turnover</td>
<td valign="top" bgcolor="#FFFFFF" class="text-f11">10 </td>
</tr>


<tr>
<td align="right" valign="top" bgcolor="#FFFFFF" class="text-f11-b">Import Turnover</td>
<td valign="top" bgcolor="#FFFFFF" class="text-f11"> </td>
</tr>


<tr>
<td align="right" valign="top" bgcolor="#ffffff" class="text-f11-b">Bankers</td>
<td valign="top" bgcolor="#ffffff" class="text-f11">Hdfc Bank </td>
</tr>

员工人数
10
出口营业额
年营业额
10
进口营业额
银行家
Hdfc银行

但我不确定您是否正在查看表中的以下注释

from bs4 import BeautifulSoup,Comment
import requests
r =requests.get('http://www.esuppliersindia.com/krishna-agro-traders/aboutus-p17322178-u10731500-swa.html')

soup = BeautifulSoup(r.text,'lxml')
table = soup.find('table',class_='text-listing')
comments=table.find_all(string=lambda text:isinstance(text,Comment))
print(comments[0].split('</tr>')[0])
for i in range(1,len(comments)):
  print(comments[i])

来自bs4导入美化组的

，注释
导入请求
r=请求。获取（'http://www.esuppliersindia.com/krishna-agro-traders/aboutus-p17322178-u10731500-swa.html')
soup=BeautifulSoup（r.text，'lxml'）
table=soup.find（'table'，class='text-listing'）
注释=表格。查找所有（字符串=lambda文本：isinstance（文本，注释））
打印（注释[0]。拆分（“”）[0]）
对于范围（1，len（注释））中的i：
打印（评论[i]）

我会像那样打印输出

<td align="right" bgcolor="#FFFFFF" class="text-f11-b">No. Of Employees</td>
<td bgcolor="#FFFFFF" class="text-f11">10</td>

<tr>
<td align="right" bgcolor="#FFFFFF" class="text-f11-b">Export Turnover</td>
<td bgcolor="#FFFFFF" class="text-f11"></td>
</tr>


<tr>
<td align="right" valign="top" bgcolor="#FFFFFF" class="text-f11-b">Annual Turnover</td>
<td valign="top" bgcolor="#FFFFFF" class="text-f11">10 </td>
</tr>


<tr>
<td align="right" valign="top" bgcolor="#FFFFFF" class="text-f11-b">Import Turnover</td>
<td valign="top" bgcolor="#FFFFFF" class="text-f11"> </td>
</tr>


<tr>
<td align="right" valign="top" bgcolor="#ffffff" class="text-f11-b">Bankers</td>
<td valign="top" bgcolor="#ffffff" class="text-f11">Hdfc Bank </td>
</tr>

员工人数
10
出口营业额
年营业额
10
进口营业额
银行家
Hdfc银行

您能举一个“蓝色”隐藏文本的例子吗？你是说绿色注释掉的信息吗？你能举一个“蓝色”隐藏文本的例子吗？你是说绿色的注释信息吗？我想一个一个地提取元素，但它不是那样工作的。你是说它不是一个一个地打印？它是一个一个地打印，但如果我想要特定的tr标记元素，即2个tds标记文本，我没有得到。我想一个接一个地提取元素，但它不是那样工作的。你说它不是一个接一个地打印是什么意思？它是一个接一个地打印，但如果我想要特定的tr标记元素，即2个tds标记文本，我没有得到。