Python 我如何循环这个outerHTML代码以获取某些数据?(我不知道如何使用webscrape,所以我想试试这个)
我正试图得到一份清单,将印度的地区与2011年人口普查时的地区代码相匹配。下面我将发布我从政府网站复制的outerHTML的一小部分。我试图循环它,从每个小html框中提取一个字符串和一个int,并将它们理想地存储在同一行的pandas数据框中。HTML块如下所示,我代表2,在我的txt文件中大约有700个:Python 我如何循环这个outerHTML代码以获取某些数据?(我不知道如何使用webscrape,所以我想试试这个),python,pandas,screen-scraping,census,Python,Pandas,Screen Scraping,Census,我正试图得到一份清单,将印度的地区与2011年人口普查时的地区代码相匹配。下面我将发布我从政府网站复制的outerHTML的一小部分。我试图循环它,从每个小html框中提取一个字符串和一个int,并将它们理想地存储在同一行的pandas数据框中。HTML块如下所示,我代表2,在我的txt文件中大约有700个: <tr>
<tr>
<td width="5%">1</td>
<td>603</td>
<td align="left">**NICOBARS**</td>
<td align="left">NICOBARS </td>
<td align="left">ANDAMAN AND NICOBAR ISLANDS(State)</td>
<td align="left">NIC</td>
<td align="left">02</td>
<td align="left">**638**</td>
<td align="left">
Not Covered
</td>
<td width="5%" align="center"><a href="#" onclick="javascript:viewEntityDetailsInPopup('603', 'globalviewDistrictDetail.do', 'globaldistrictId');"><i class="fa fa-eye" aria-hidden="true"></i></a>
</td>
<td width="5%" align="center"><a href="#" onclick="javascript:viewEntityDetailsInPopup('603', 'viewDistrictHistoryReport.do', 'globaldistrictId');"><i class="fa fa-history" aria-hidden="true"></i></a>
</td>
<td width="5%" align="center">
</td>
<td width="3%" align="center">
<!-- Merging issue revert beck 05/10/2017 -->
<a href="#" onclick="javascript:viewLandRegionGISMapInPopup(2,'603','L','D');"><i class="fa fa-map-marker" aria-hidden="true"></i></a>
</td>
</tr>
<tr>
<td width="5%">2</td>
<td>632</td>
<td align="left">**NORTH AND MIDDLE ANDAMAN**</td>
<td align="left">NORTH AND MIDDLE ANDAMAN </td>
<td align="left">ANDAMAN AND NICOBAR ISLANDS(State)</td>
<td align="left">NMA</td>
<td align="left"></td>
<td align="left">**639**</td>
<td align="left">
Not Covered
1.
603
**尼科巴**
尼科巴
安达曼和尼科巴群岛(州)
NIC
02
**638**
未涵盖
2.
632
**安达曼北部和中部**
安达曼北部和中部
安达曼和尼科巴群岛(州)
NMA
**639**
未涵盖
我已经在**周围放置了**我想从文本文件中获取的值。我想知道如何循环阅读这篇文章来提取这些数据。我想在每次遇到后开始计数,然后提取第一次和第六次的数据,但我不知道如何编写代码。希望有人愿意帮忙。或者任何人谁已经有了这个名单,将是伟大的 如果能够获取整个html表的文本,可以使用
df=pd.read\u html(html\u text\u string)
。50%的情况下,它每次都有效
我强烈建议您查看“BeautifulSoup”包:使用lxml和xpath非常容易。如果您可以使用它们,请发布url。