Html 来自维基百科的解析器用户页面信息。如何删除冗余信息?

Html 来自维基百科的解析器用户页面信息。如何删除冗余信息?,html,parsing,beautifulsoup,html-parsing,mediawiki,Html,Parsing,Beautifulsoup,Html Parsing,Mediawiki,我正在尝试使用API从Wikipedia获取公共用户信息。(使用脚本)。在我得到修改后,我使用BeautifulSoup剥离所有HTML标记。然而,我发现剩下的文字仍然很混乱 例如,当我从获取文本数据时,结果显示如下: (一小部分) 请问: 我如何删除字符串,如style=“…”,cellpadding=“…”或类似的内容?我可以一次删除所有这样的格式字符串吗 有很多这样的街区: “It is.”后面的信息是我们需要的,但前面的文本:Userbox |#77E0E8,也用于web布局定义,应该删

我正在尝试使用API从Wikipedia获取公共用户信息。(使用脚本)。在我得到修改后,我使用BeautifulSoup剥离所有HTML标记。然而,我发现剩下的文字仍然很混乱

例如,当我从获取文本数据时,结果显示如下: (一小部分)

请问:

  • 我如何删除字符串,如
    style=“…”
    cellpadding=“…”
    或类似的内容?我可以一次删除所有这样的格式字符串吗
  • 有很多这样的街区:
  • “It is.”后面的信息是我们需要的,但前面的文本:
    Userbox |#77E0E8
    ,也用于web布局定义,应该删除。有没有办法把这条线的前半部分移走? (
    Userbox
    只是其中的一种,还有许多其他类型,如
    User:
    Category:
    ,因此很难使用自定义
    re
    规则移动它们)


    (我是BeautifulSoup和Web解析器的初学者,因此任何建议或提示都是有价值的。提前感谢您的帮助!)

    您使用的是修订版API,它只允许您以Wikitext的形式获取页面内容。这就是你看到的“混乱”文本

    您可以改为使用parseapi来获取页面的呈现HTML内容,然后将其放入您选择的本地DOM解析器中,或者只剥离HTML标记(如果适用)


    有关详细信息,请参见,包括如何请求页面解析内容的示例。

    谢谢您的回复!我试过解析API,现在它工作得很好!多谢各位!
    {{administrator}}
    {{divbox|gray||Wikipedia is currently working on {{NUMBEROFARTICLES}} articles. The local time at the Wikipedia servers is '''{{CURRENTTIME}}''' on {{CURRENTDAYNAME}} {{CURRENTDAY}} {{CURRENTMONTHNAME}}, {{CURRENTYEAR}}.}}
    
    • '''[[:WP:AIV|AIV]]''' • 
    '''[[Wikipedia:Articles for deletion/Log/{{CURRENTYEAR}} {{CURRENTMONTHNAME}} {{CURRENTDAY}}|AfD]]''' • '''[[User:(aeropagitica)/RFA summary|RfA]]''' • '''[[:Category:Candidates for speedy deletion|CSD]]''' • '''[[Wikipedia:Template messages|tpl]]''' • '''[[Wikipedia:Template_messages/User_talk_namespace|user talk tpl]]''' • '''[[Special:Newpages|new]]''' • '''[[Wikipedia:Stubs|stubs]]''' • '''[[Wikipedia:Copyright problems|(c)]]''' • '''[[Wikipedia:Manual of Style|MoS]]''' • '''[[User:Interiot/Tool2|edits (interiot)]]''' • '''[[Wikipedia:Proposed_deletion|prod]]''' • '''[[Special:Log/Newusers|newusers]]''' • '''[http://tools.wikimedia.de/~essjay/edit_count/Count.php? PHP interiot's tool]''' • '''[http://tools.wikimedia.de/~interiot/cgi-bin/Tool1/wannabe_kate Interiot's tool 1]''' • '''[[:Wikipedia:Article Creation and Improvement Drive|Article Improvement]]'''
    
    {{purge|Purge server cache}}
    
    I was [[Wikipedia:Requests_for_adminship/%28aeropagitica%29|nominated for adminship]] by [[User:King of Hearts|King of Hearts]] on February 27th 2006. The vote achieved consensus and I was accepted for the role with a score of '''40/10/5''' on March 7th 2006. 
    
    When I am not working on Wikipedia pages, I enjoy learning to play acoustic fingerstyle guitar, photography, learning languages (Spanish and French) and travel.
    
    ''Userboxes''
    
    {| style="text-align:center; border: 1px solid #000000; background-color:#00cc99; width:100%; -moz-border-radius: 15px;"
    |-  padding:5em;padding-top:0.5em;"
    |{{user en}}
    
    {{Userbox|#77E0E8|#D0F8FF|{{CURRENTDAY}}|It is currently a [[{{CURRENTDAYNAME}}]]. I don't like {{CURRENTDAYNAME}}s.}}