通过python提取Wikipedia文章的引言部分
我想提取维基百科文章的引言部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的html源代码,但并没有看到这部分包含的任何特殊标记 谁能给我一个快速的解决方案?我正在写python脚本 谢谢通过python提取Wikipedia文章的引言部分,python,html-content-extraction,Python,Html Content Extraction,我想提取维基百科文章的引言部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的html源代码,但并没有看到这部分包含的任何特殊标记 谁能给我一个快速的解决方案?我正在写python脚本 谢谢 您可能需要选中来解析wikipedia源代码 或者,使用lib HTML屏幕浏览 啊,这个话题已经有一个问题了, 我想你通常可以通过翻开整页,去掉所有表格,然后在标记后寻找第一个序列的…块来阅读介绍文本。最后一位是这个正则表达式: /<!-- bodytext -->.*?(&
我想你通常可以通过翻开整页,去掉所有表格,然后在标记后寻找第一个序列的…块来阅读介绍文本。最后一位是这个正则表达式:
/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
/.*(*?\s*)+/
使用.S选项来创建。匹配换行符…对于此特定操作,您可能希望解析wiki标记,而不是HTML。能否提供更多详细信息?我不熟悉访问wiki标记?我该如何得到它?谢谢,但是当需求很简单的时候,它们是一种权宜之计。但是,如果你想提供一个比我的正则表达式更有用的特定HTML库答案,那就直接说吧。好吧,漂亮的汤有什么问题吗?这比实现你自己的不完整且充满bug的特殊解析器更方便。我的意思是,提供一个答案,说明如何使用Beautiful Soup从维基百科页面中获取介绍部分,就像提问者想要的那样。如果你是对的,这更方便,那么这应该是简单的,你的答案应该明显比我的好。