Python 维基百科抓取-需要帮助来构建它_Python_Pandas_Python 2.7_Beautifulsoup_Wikipedia

Python 维基百科抓取-需要帮助来构建它

python pandas python-2.7

Python 维基百科抓取-需要帮助来构建它,python,pandas,python-2.7,beautifulsoup,wikipedia,Python,Pandas,Python 2.7,Beautifulsoup,Wikipedia,我在努力刮我遇到了一些问题，非常感谢您的帮助：有些行有多个名称或链接，我希望它们都被分配到正确的国家/地区。还有什么我能做到的吗我想跳过“名称（本机）”列。我该怎么做如果我正在删除“Name（native）”列。我有点胡言乱语，有没有编码的方法您可以使用pandas函数从数据帧列表中获取第二个数据帧： url = 'https://en.wikipedia.org/wiki/List_of_government_gazettes' df = pd.read_html(url)[1].h

我在努力刮

我遇到了一些问题，非常感谢您的帮助：

有些行有多个名称或链接，我希望它们都被分配到正确的国家/地区。还有什么我能做到的吗

我想跳过“名称（本机）”列。我该怎么做

如果我正在删除“Name（native）”列。我有点胡言乱语，有没有编码的方法

您可以使用pandas函数从数据帧列表中获取第二个数据帧：

url = 'https://en.wikipedia.org/wiki/List_of_government_gazettes'
df = pd.read_html(url)[1].head()
print (df)
       Country/region                                              Name  \
0              Albania       Official Gazette of the Republic of Albania   
1              Algeria                                  Official Gazette   
2              Andorra  Official Bulletin of the Principality of Andorra   
3  Antigua and Barbuda              Antigua and Barbuda Official Gazette   
4            Argentina     Official Gazette of the Republic of Argentina   

                                 Name (native)                    Website  
0  Fletorja Zyrtare E Republikës Së Shqipërisë                 qbz.gov.al  
1                   Journal Officiel d'Algérie              joradp.dz/HAR  
2     Butlletí Oficial del Principat d'Andorra                www.bopa.ad  
3         Antigua and Barbuda Official Gazette    www.legalaffairs.gov.ag  
4    Boletín Oficial de la República Argentina  www.boletinoficial.gob.ar

如果检查输出，则存在问题行

，因为wiki页面中也存在错误数据

解决方案应按列名和行设置值：

df.loc[26, 'Name (native)'] = np.nan

所以这比我想象的要简单得多，非常感谢！学习Pandas和如何将此表转换为csv的标题。再次感谢@jezrael

df.loc[26, 'Name (native)'] = np.nan