如何在python中获取给定html代码中的所有td值_Python_Html_Web Scraping

如何在python中获取给定html代码中的所有td值

python html web-scraping

如何在python中获取给定html代码中的所有td值,python,html,web-scraping,Python,Html,Web Scraping,我有以下输入文件 <td align="right"> <img alt="inflation rates india" src="http://www.inflation.eu/images/country_icons/round_icons_36/india.jpg"> </img></td>, <td align="right" style="width:20%;">inflation</td>, <td

我有以下输入文件

<td align="right">
 <img alt="inflation rates india" src="http://www.inflation.eu/images/country_icons/round_icons_36/india.jpg">
 </img></td>,
 <td align="right" style="width:20%;">inflation</td>,
 <td align="right" style="width:20%;">inflation </td>,
 <td align="right">-0.69 %</td>,
 <td align="right">4.00 % </td>,
 <td align="right">0.35 %</td>,
 <td align="right">3.97 % </td>,
 <td align="right">0.70 %</td>,
 <td align="right">3.24 % </td>,
 <td align="right">0.00 %</td>,
 <td align="right">2.89 % </td>,
 <td align="right">0.00 %</td>,
 <td align="right">2.52 % </td>,
 <td align="right">1.79 %</td>,
 <td align="right">1.79 % </td>,
 <td align="right">0.72 %</td>,
 <td align="right">1.08 % </td>,
 <td align="right">0.36 %</td>,
 <td align="right">1.09 % </td>,
 <td align="right">0.73 %</td>,
 <td align="right">2.21 % </td>,
 <td align="right">0.36 %</td>,
 <td align="right">2.61 % </td>,
 <td align="right">0.00 %</td>,
 <td align="right">2.62 % </td>,
 <td align="right">-0.36 %</td>,
 <td align="right">1.86 % </td>,
 <td align="right">
 <a class="footer" href="http://www.inflation.eu/" target="blank">inflation.eu</a> is an initiative of Triami Media BV in cooperation with <a class="footer" href="http://www.homefinance.nl/" target="blank">HomeFinance</a> - © 2010 - 2018 Copyright 
 </td>

我想要后面跟着百分比的所有td值。以前我尝试使用find_all函数，但它给出了错误

AttributeError: 'ResultSet' object has no attribute 'find_all'

如果您只想在文档中输入

td

，而不考虑表格，您只需执行以下操作：

list_of_cells = []
for cell in page_soup.find_all('td'):
    text = cell.text.strip()
    if text.endswith('%'):
        list_of_cells.append(text)

至于有关

表的错误消息

，

结果集

就像一个列表-您必须在其中使用单个项，例如通过for循环

list_of_cells = []
for tab in table:
    for cell in tab.find_all('td'):
        text = cell.text.strip()
        if text.endswith('%'):
            list_of_cells.append(text)

请注意，这可能会跳过顶层标记。

如果您只想在文档中使用

td

，而不考虑表格，您可以简单地执行以下操作：

list_of_cells = []
for cell in page_soup.find_all('td'):
    text = cell.text.strip()
    if text.endswith('%'):
        list_of_cells.append(text)

至于有关

表的错误消息

，

结果集

就像一个列表-您必须在其中使用单个项，例如通过for循环

list_of_cells = []
for tab in table:
    for cell in tab.find_all('td'):
        text = cell.text.strip()
        if text.endswith('%'):
            list_of_cells.append(text)

请注意，这可能会跳过顶层标记。

这是您也可以尝试获得所需输出的另一种方法：

soup = BeautifulSoup(content,"lxml")
items = '\n'.join([item.text for item in soup.find_all("td") if "%" in item.text])
print(items)

这是另一种获得所需输出的方法：

soup = BeautifulSoup(content,"lxml")
items = '\n'.join([item.text for item in soup.find_all("td") if "%" in item.text])
print(items)

你也可以发布你的html吗？你也可以发布你的html吗？非常感谢你的回答，但是它给出的输出像“-0.69\xa0%”、“4.00\xa0%”、“0.70\xa0%”、“3.24\xa0%”、“0.00\xa0%”、“2.52\xa0%”、“0.72\xa0%”、“1.08\xa0%”、“0.73\xa0%”、“2.21\xa0%”、“0.00\xa0%”，“2.62\xa0%”如何从该输出中删除\xa0%？此问题：非常感谢您的回答，但它提供的输出类似于“-0.69\xa0%，“4.00\xa0%，“0.70\xa0%，“3.24\xa0%，“0.00\xa0%，”，“2.52\xa0%”、“0.72\xa0%”、“1.08\xa0%”、“0.73\xa0%”、“2.21\xa0%”、“0.00\xa0%”、“2.62\xa0%”如何从该输出中删除\xa0%此问题：