如何提取和打印all中的文本<;td>;使用python在表中添加标记

如何提取和打印all中的文本<;td>;使用python在表中添加标记,python,html,web,web-scraping,Python,Html,Web,Web Scraping,我想用python从表中的所有标记中提取文本(数字)。 我对python编码还不熟悉,所以请原谅我代码中的混乱。这是我在这一部分的代码 r = requests.get(saurl) soupsa = BeautifulSoup(r.text, 'html.parser') cases_table = soupsa.find('table') for state in cases_table.find_all('tbody'): rows = state.find_all('tr') for r

我想用python从表中的所有标记中提取文本(数字)。 我对python编码还不熟悉,所以请原谅我代码中的混乱。这是我在这一部分的代码

r = requests.get(saurl)
soupsa = BeautifulSoup(r.text, 'html.parser')
cases_table = soupsa.find('table')
for state in cases_table.find_all('tbody'):
rows = state.find_all('tr')
for row in rows:
    numcases = row.find('class="numeric"')
    aunumcases = row.find('td class="numeric"')
    print(aunumcases)
我正在尝试清理的html表如下所示

<tbody>
      <tr>
        <th>
          Location
        </th>
        <th class="text--align-right">
          Confirmed cases*            </th>
      </tr>
      <tr>
        <td>
            <p>Australian Capital Territory</p>
        </td>
        <td class="numeric">
            <p><span>78</span></p>
        </td>
      </tr>
      <tr>
        <td>
          <p>New South Wales</p>
        </td>
        <td class="numeric">
          2,032            </td>
      </tr>
      <tr>
        <td>
          <p>Northern Territory</p>
        </td>
        <td class="numeric">
            14            </td>
      </tr>
      <tr>
        <td>
          <p>Queensland</p>
        </td>
        <td class="numeric">
          689            </td>
      </tr>
      <tr>
        <td>
          <p>South Australia</p>
        </td>
        <td class="numeric">
          305            </td>
      </tr>
      <tr>
        <td>
          <p>Tasmania</p>
        </td>
        <td class="numeric">
          65            </td>
      </tr>
      <tr>
        <td>
          <p>Victoria</p>
        </td>
        <td class="numeric">
          821            </td>
      </tr>
      <tr>
        <td>
          <p>Western Australia</p>
        </td>
        <td class="numeric">
          355            </td>
      </tr>
      <tr>
        <td>
          <p><strong>Total**</strong></p>
        </td>
        <td class="numeric">
          <strong>4,359</strong>
        </td>
      </tr>
    </tbody>

地方
确诊病例*
澳大利亚首都地区

78

新南威尔士州

2,032 北领地

14 昆士兰

689 南澳大利亚

305 塔斯马尼亚

65 维多利亚

821 西澳大利亚州

355 总计**

4359

问题是当我运行代码并打印'aunumcases'时,它返回'none'。任何帮助都是非常必要的

这是一个静态表,所以我只使用熊猫

import pandas as pd

table = pd.read_html('https://www.health.gov.au/news/health-alerts/novel-coronavirus-2019-ncov-health-alert/coronavirus-covid-19-current-situation-and-case-numbers')[0]

你能把实际的url包括进去吗?你是否希望aunumcases v numcases会有不同的结果?如果是这样,那是什么?@QHarr网站的链接是@QHarr,是的,我希望拍卖会和numcase会给出相同的答案,它们只是两种不同的方法,我试图得到结果,但都不起作用!我不知道你的意思,我只是在代码之后打印表格吗?是的,或者过滤表格/子集以获得你想要的任何特定值。