Python 我如何循环这个outerHTML代码以获取某些数据?(我不知道如何使用webscrape,所以我想试试这个)

Python 我如何循环这个outerHTML代码以获取某些数据?(我不知道如何使用webscrape,所以我想试试这个),python,pandas,screen-scraping,census,Python,Pandas,Screen Scraping,Census,我正试图得到一份清单,将印度的地区与2011年人口普查时的地区代码相匹配。下面我将发布我从政府网站复制的outerHTML的一小部分。我试图循环它,从每个小html框中提取一个字符串和一个int,并将它们理想地存储在同一行的pandas数据框中。HTML块如下所示,我代表2,在我的txt文件中大约有700个: <tr>

我正试图得到一份清单,将印度的地区与2011年人口普查时的地区代码相匹配。下面我将发布我从政府网站复制的outerHTML的一小部分。我试图循环它,从每个小html框中提取一个字符串和一个int,并将它们理想地存储在同一行的pandas数据框中。HTML块如下所示,我代表2,在我的txt文件中大约有700个:

                                            <tr>
                                                <td width="5%">1</td>
                                                <td>603</td>
                                                <td align="left">**NICOBARS**</td>
                                                <td align="left">NICOBARS                                          </td>
                                                <td align="left">ANDAMAN AND NICOBAR ISLANDS(State)</td>
                                                <td align="left">NIC</td>
                                                <td align="left">02</td>
                                                <td align="left">**638**</td>
                                                <td align="left">




                                                            Not Covered


                                                </td>
                                                <td width="5%" align="center"><a href="#" onclick="javascript:viewEntityDetailsInPopup('603', 'globalviewDistrictDetail.do', 'globaldistrictId');"><i class="fa fa-eye" aria-hidden="true"></i></a>
                                                </td>
                                                <td width="5%" align="center"><a href="#" onclick="javascript:viewEntityDetailsInPopup('603', 'viewDistrictHistoryReport.do', 'globaldistrictId');"><i class="fa fa-history" aria-hidden="true"></i></a>
                                                </td>
                                                <td width="5%" align="center">

                                                </td>
                                                <td width="3%" align="center">
                                                 <!-- Merging issue revert beck 05/10/2017 -->


                                                    <a href="#" onclick="javascript:viewLandRegionGISMapInPopup(2,'603','L','D');"><i class="fa fa-map-marker" aria-hidden="true"></i></a>

                                                </td>
                                            </tr>

                                            <tr>
                                                <td width="5%">2</td>
                                                <td>632</td>
                                                <td align="left">**NORTH AND MIDDLE ANDAMAN**</td>
                                                <td align="left">NORTH AND MIDDLE ANDAMAN                          </td>
                                                <td align="left">ANDAMAN AND NICOBAR ISLANDS(State)</td>
                                                <td align="left">NMA</td>
                                                <td align="left"></td>
                                                <td align="left">**639**</td>
                                                <td align="left">




                                                            Not Covered

1.
603
**尼科巴**
尼科巴
安达曼和尼科巴群岛(州)
NIC
02
**638**
未涵盖
2.
632
**安达曼北部和中部**
安达曼北部和中部
安达曼和尼科巴群岛(州)
NMA
**639**
未涵盖

我已经在**周围放置了**我想从文本文件中获取的值。我想知道如何循环阅读这篇文章来提取这些数据。我想在每次遇到后开始计数,然后提取第一次和第六次的数据,但我不知道如何编写代码。希望有人愿意帮忙。或者任何人谁已经有了这个名单,将是伟大的

如果能够获取整个html表的文本,可以使用
df=pd.read\u html(html\u text\u string)
。50%的情况下,它每次都有效


我强烈建议您查看“BeautifulSoup”包:使用lxml和xpath非常容易。如果您可以使用它们,请发布url。