Python 维基百科抓取-需要帮助来构建它
我在努力刮 我遇到了一些问题,非常感谢您的帮助:Python 维基百科抓取-需要帮助来构建它,python,pandas,python-2.7,beautifulsoup,wikipedia,Python,Pandas,Python 2.7,Beautifulsoup,Wikipedia,我在努力刮 我遇到了一些问题,非常感谢您的帮助: 有些行有多个名称或链接,我希望它们都被分配到正确的国家/地区。还有什么我能做到的吗 我想跳过“名称(本机)”列。我该怎么做 如果我正在删除“Name(native)”列。我有点胡言乱语,有没有编码的方法 您可以使用pandas函数从数据帧列表中获取第二个数据帧: url = 'https://en.wikipedia.org/wiki/List_of_government_gazettes' df = pd.read_html(url)[1].h
您可以使用pandas函数从数据帧列表中获取第二个数据帧:
url = 'https://en.wikipedia.org/wiki/List_of_government_gazettes'
df = pd.read_html(url)[1].head()
print (df)
Country/region Name \
0 Albania Official Gazette of the Republic of Albania
1 Algeria Official Gazette
2 Andorra Official Bulletin of the Principality of Andorra
3 Antigua and Barbuda Antigua and Barbuda Official Gazette
4 Argentina Official Gazette of the Republic of Argentina
Name (native) Website
0 Fletorja Zyrtare E Republikës Së Shqipërisë qbz.gov.al
1 Journal Officiel d'Algérie joradp.dz/HAR
2 Butlletí Oficial del Principat d'Andorra www.bopa.ad
3 Antigua and Barbuda Official Gazette www.legalaffairs.gov.ag
4 Boletín Oficial de la República Argentina www.boletinoficial.gob.ar
如果检查输出,则存在问题行26
,因为wiki页面中也存在错误数据
解决方案应按列名和行设置值:
df.loc[26, 'Name (native)'] = np.nan
所以这比我想象的要简单得多,非常感谢!学习Pandas和如何将此表转换为csv的标题。再次感谢@jezrael
df.loc[26, 'Name (native)'] = np.nan