Html 来自维基百科的解析器用户页面信息。如何删除冗余信息?
我正在尝试使用API从Wikipedia获取公共用户信息。(使用脚本)。在我得到修改后,我使用BeautifulSoup剥离所有HTML标记。然而,我发现剩下的文字仍然很混乱 例如,当我从获取文本数据时,结果显示如下: (一小部分) 请问:Html 来自维基百科的解析器用户页面信息。如何删除冗余信息?,html,parsing,beautifulsoup,html-parsing,mediawiki,Html,Parsing,Beautifulsoup,Html Parsing,Mediawiki,我正在尝试使用API从Wikipedia获取公共用户信息。(使用脚本)。在我得到修改后,我使用BeautifulSoup剥离所有HTML标记。然而,我发现剩下的文字仍然很混乱 例如,当我从获取文本数据时,结果显示如下: (一小部分) 请问: 我如何删除字符串,如style=“…”,cellpadding=“…”或类似的内容?我可以一次删除所有这样的格式字符串吗 有很多这样的街区: “It is.”后面的信息是我们需要的,但前面的文本:Userbox |#77E0E8,也用于web布局定义,应该删
style=“…”
,cellpadding=“…”
或类似的内容?我可以一次删除所有这样的格式字符串吗Userbox |#77E0E8
,也用于web布局定义,应该删除。有没有办法把这条线的前半部分移走?
(Userbox
只是其中的一种,还有许多其他类型,如User:
,Category:
,因此很难使用自定义re
规则移动它们)
(我是BeautifulSoup和Web解析器的初学者,因此任何建议或提示都是有价值的。提前感谢您的帮助!)您使用的是修订版API,它只允许您以Wikitext的形式获取页面内容。这就是你看到的“混乱”文本 您可以改为使用parseapi来获取页面的呈现HTML内容,然后将其放入您选择的本地DOM解析器中,或者只剥离HTML标记(如果适用)
有关详细信息,请参见,包括如何请求页面解析内容的示例。谢谢您的回复!我试过解析API,现在它工作得很好!多谢各位!
{{administrator}}
{{divbox|gray||Wikipedia is currently working on {{NUMBEROFARTICLES}} articles. The local time at the Wikipedia servers is '''{{CURRENTTIME}}''' on {{CURRENTDAYNAME}} {{CURRENTDAY}} {{CURRENTMONTHNAME}}, {{CURRENTYEAR}}.}}
• '''[[:WP:AIV|AIV]]''' •
'''[[Wikipedia:Articles for deletion/Log/{{CURRENTYEAR}} {{CURRENTMONTHNAME}} {{CURRENTDAY}}|AfD]]''' • '''[[User:(aeropagitica)/RFA summary|RfA]]''' • '''[[:Category:Candidates for speedy deletion|CSD]]''' • '''[[Wikipedia:Template messages|tpl]]''' • '''[[Wikipedia:Template_messages/User_talk_namespace|user talk tpl]]''' • '''[[Special:Newpages|new]]''' • '''[[Wikipedia:Stubs|stubs]]''' • '''[[Wikipedia:Copyright problems|(c)]]''' • '''[[Wikipedia:Manual of Style|MoS]]''' • '''[[User:Interiot/Tool2|edits (interiot)]]''' • '''[[Wikipedia:Proposed_deletion|prod]]''' • '''[[Special:Log/Newusers|newusers]]''' • '''[http://tools.wikimedia.de/~essjay/edit_count/Count.php? PHP interiot's tool]''' • '''[http://tools.wikimedia.de/~interiot/cgi-bin/Tool1/wannabe_kate Interiot's tool 1]''' • '''[[:Wikipedia:Article Creation and Improvement Drive|Article Improvement]]'''
{{purge|Purge server cache}}
I was [[Wikipedia:Requests_for_adminship/%28aeropagitica%29|nominated for adminship]] by [[User:King of Hearts|King of Hearts]] on February 27th 2006. The vote achieved consensus and I was accepted for the role with a score of '''40/10/5''' on March 7th 2006.
When I am not working on Wikipedia pages, I enjoy learning to play acoustic fingerstyle guitar, photography, learning languages (Spanish and French) and travel.
''Userboxes''
{| style="text-align:center; border: 1px solid #000000; background-color:#00cc99; width:100%; -moz-border-radius: 15px;"
|- padding:5em;padding-top:0.5em;"
|{{user en}}
{{Userbox|#77E0E8|#D0F8FF|{{CURRENTDAY}}|It is currently a [[{{CURRENTDAYNAME}}]]. I don't like {{CURRENTDAYNAME}}s.}}