Python 我如何循环这个outerHTML代码以获取某些数据？（我不知道如何使用webscrape，所以我想试试这个）_Python_Pandas_Screen Scraping_Census

Python 我如何循环这个outerHTML代码以获取某些数据？（我不知道如何使用webscrape，所以我想试试这个）

python pandas

Python 我如何循环这个outerHTML代码以获取某些数据？（我不知道如何使用webscrape，所以我想试试这个）,python,pandas,screen-scraping,census,Python,Pandas,Screen Scraping,Census,我正试图得到一份清单，将印度的地区与2011年人口普查时的地区代码相匹配。下面我将发布我从政府网站复制的outerHTML的一小部分。我试图循环它，从每个小html框中提取一个字符串和一个int，并将它们理想地存储在同一行的pandas数据框中。HTML块如下所示，我代表2，在我的txt文件中大约有700个： <tr>

我正试图得到一份清单，将印度的地区与2011年人口普查时的地区代码相匹配。下面我将发布我从政府网站复制的outerHTML的一小部分。我试图循环它，从每个小html框中提取一个字符串和一个int，并将它们理想地存储在同一行的pandas数据框中。HTML块如下所示，我代表2，在我的txt文件中大约有700个：

                                            <tr>
                                                <td width="5%">1</td>
                                                <td>603</td>
                                                <td align="left">**NICOBARS**</td>
                                                <td align="left">NICOBARS                                          </td>
                                                <td align="left">ANDAMAN AND NICOBAR ISLANDS(State)</td>
                                                <td align="left">NIC</td>
                                                <td align="left">02</td>
                                                <td align="left">**638**</td>
                                                <td align="left">




                                                            Not Covered


                                                </td>
                                                <td width="5%" align="center"><a href="#" onclick="javascript:viewEntityDetailsInPopup('603', 'globalviewDistrictDetail.do', 'globaldistrictId');"><i class="fa fa-eye" aria-hidden="true"></i></a>
                                                </td>
                                                <td width="5%" align="center"><a href="#" onclick="javascript:viewEntityDetailsInPopup('603', 'viewDistrictHistoryReport.do', 'globaldistrictId');"><i class="fa fa-history" aria-hidden="true"></i></a>
                                                </td>
                                                <td width="5%" align="center">

                                                </td>
                                                <td width="3%" align="center">
                                                 <!-- Merging issue revert beck 05/10/2017 -->


                                                    <a href="#" onclick="javascript:viewLandRegionGISMapInPopup(2,'603','L','D');"><i class="fa fa-map-marker" aria-hidden="true"></i></a>

                                                </td>
                                            </tr>

                                            <tr>
                                                <td width="5%">2</td>
                                                <td>632</td>
                                                <td align="left">**NORTH AND MIDDLE ANDAMAN**</td>
                                                <td align="left">NORTH AND MIDDLE ANDAMAN                          </td>
                                                <td align="left">ANDAMAN AND NICOBAR ISLANDS(State)</td>
                                                <td align="left">NMA</td>
                                                <td align="left"></td>
                                                <td align="left">**639**</td>
                                                <td align="left">




                                                            Not Covered


1.
603
**尼科巴**
尼科巴
安达曼和尼科巴群岛（州）
NIC
02
**638**
未涵盖
2.
632
**安达曼北部和中部**
安达曼北部和中部
安达曼和尼科巴群岛（州）
NMA
**639**
未涵盖

我已经在**周围放置了**我想从文本文件中获取的值。我想知道如何循环阅读这篇文章来提取这些数据。我想在每次遇到后开始计数，然后提取第一次和第六次的数据，但我不知道如何编写代码。希望有人愿意帮忙。或者任何人谁已经有了这个名单，将是伟大的

如果能够获取整个html表的文本，可以使用

df=pd.read\u html（html\u text\u string）

。50%的情况下，它每次都有效

我强烈建议您查看“BeautifulSoup”包：使用lxml和xpath非常容易。如果您可以使用它们，请发布url。