Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/345.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 维基百科抓取-需要帮助来构建它_Python_Pandas_Python 2.7_Beautifulsoup_Wikipedia - Fatal编程技术网

Python 维基百科抓取-需要帮助来构建它

Python 维基百科抓取-需要帮助来构建它,python,pandas,python-2.7,beautifulsoup,wikipedia,Python,Pandas,Python 2.7,Beautifulsoup,Wikipedia,我在努力刮 我遇到了一些问题,非常感谢您的帮助: 有些行有多个名称或链接,我希望它们都被分配到正确的国家/地区。还有什么我能做到的吗 我想跳过“名称(本机)”列。我该怎么做 如果我正在删除“Name(native)”列。我有点胡言乱语,有没有编码的方法 您可以使用pandas函数从数据帧列表中获取第二个数据帧: url = 'https://en.wikipedia.org/wiki/List_of_government_gazettes' df = pd.read_html(url)[1].h

我在努力刮

我遇到了一些问题,非常感谢您的帮助:

  • 有些行有多个名称或链接,我希望它们都被分配到正确的国家/地区。还有什么我能做到的吗

  • 我想跳过“名称(本机)”列。我该怎么做

  • 如果我正在删除“Name(native)”列。我有点胡言乱语,有没有编码的方法


  • 您可以使用pandas函数从数据帧列表中获取第二个数据帧:

    url = 'https://en.wikipedia.org/wiki/List_of_government_gazettes'
    df = pd.read_html(url)[1].head()
    print (df)
           Country/region                                              Name  \
    0              Albania       Official Gazette of the Republic of Albania   
    1              Algeria                                  Official Gazette   
    2              Andorra  Official Bulletin of the Principality of Andorra   
    3  Antigua and Barbuda              Antigua and Barbuda Official Gazette   
    4            Argentina     Official Gazette of the Republic of Argentina   
    
                                     Name (native)                    Website  
    0  Fletorja Zyrtare E Republikës Së Shqipërisë                 qbz.gov.al  
    1                   Journal Officiel d'Algérie              joradp.dz/HAR  
    2     Butlletí Oficial del Principat d'Andorra                www.bopa.ad  
    3         Antigua and Barbuda Official Gazette    www.legalaffairs.gov.ag  
    4    Boletín Oficial de la República Argentina  www.boletinoficial.gob.ar 
    
    如果检查输出,则存在问题行
    26
    ,因为wiki页面中也存在错误数据

    解决方案应按列名和行设置值:

    df.loc[26, 'Name (native)'] = np.nan 
    

    所以这比我想象的要简单得多,非常感谢!学习Pandas和如何将此表转换为csv的标题。再次感谢@jezrael
    df.loc[26, 'Name (native)'] = np.nan