通过python提取Wikipedia文章的引言部分_Python_Html Content Extraction

通过python提取Wikipedia文章的引言部分

python

通过python提取Wikipedia文章的引言部分,python,html-content-extraction,Python,Html Content Extraction,我想提取维基百科文章的引言部分（忽略所有其他内容，包括表格、图像和其他部分）。我查看了文章的html源代码，但并没有看到这部分包含的任何特殊标记谁能给我一个快速的解决方案？我正在写python脚本谢谢您可能需要选中来解析wikipedia源代码或者，使用lib HTML屏幕浏览啊,这个话题已经有一个问题了, 我想你通常可以通过翻开整页，去掉所有表格，然后在标记后寻找第一个序列的…块来阅读介绍文本。最后一位是这个正则表达式： /.*?(&

我想提取维基百科文章的引言部分（忽略所有其他内容，包括表格、图像和其他部分）。我查看了文章的html源代码，但并没有看到这部分包含的任何特殊标记

谁能给我一个快速的解决方案？我正在写python脚本

谢谢

您可能需要选中来解析wikipedia源代码

或者，使用lib

HTML屏幕浏览

啊,这个话题已经有一个问题了,

我想你通常可以通过翻开整页，去掉所有表格，然后在标记后寻找第一个序列的…

块来阅读介绍文本。最后一位是这个正则表达式：

/<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/

/.*（*？\s*）+/

使用.S选项来创建。匹配换行符…

对于此特定操作，您可能希望解析wiki标记，而不是HTML。能否提供更多详细信息？我不熟悉访问wiki标记？我该如何得到它？谢谢，但是当需求很简单的时候，它们是一种权宜之计。但是，如果你想提供一个比我的正则表达式更有用的特定HTML库答案，那就直接说吧。好吧，漂亮的汤有什么问题吗？这比实现你自己的不完整且充满bug的特殊解析器更方便。我的意思是，提供一个答案，说明如何使用Beautiful Soup从维基百科页面中获取介绍部分，就像提问者想要的那样。如果你是对的，这更方便，那么这应该是简单的，你的答案应该明显比我的好。