Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/341.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
通过python提取Wikipedia文章的引言部分_Python_Html Content Extraction - Fatal编程技术网

通过python提取Wikipedia文章的引言部分

通过python提取Wikipedia文章的引言部分,python,html-content-extraction,Python,Html Content Extraction,我想提取维基百科文章的引言部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的html源代码,但并没有看到这部分包含的任何特殊标记 谁能给我一个快速的解决方案?我正在写python脚本 谢谢 您可能需要选中来解析wikipedia源代码 或者,使用lib HTML屏幕浏览 啊,这个话题已经有一个问题了, 我想你通常可以通过翻开整页,去掉所有表格,然后在标记后寻找第一个序列的…块来阅读介绍文本。最后一位是这个正则表达式: /<!-- bodytext -->.*?(&

我想提取维基百科文章的引言部分(忽略所有其他内容,包括表格、图像和其他部分)。我查看了文章的html源代码,但并没有看到这部分包含的任何特殊标记

谁能给我一个快速的解决方案?我正在写python脚本

谢谢

  • 您可能需要选中来解析wikipedia源代码
  • 或者,使用lib
  • HTML屏幕浏览
  • 啊,这个话题已经有一个问题了,


  • 我想你通常可以通过翻开整页,去掉所有表格,然后在标记后寻找第一个序列的…

    块来阅读介绍文本。最后一位是这个正则表达式:

    /<!-- bodytext -->.*?(<p>.*?<\/p>\s*)+/
    
    /.*(*?\s*)+/
    

    使用.S选项来创建。匹配换行符…

    对于此特定操作,您可能希望解析wiki标记,而不是HTML。能否提供更多详细信息?我不熟悉访问wiki标记?我该如何得到它?谢谢,但是当需求很简单的时候,它们是一种权宜之计。但是,如果你想提供一个比我的正则表达式更有用的特定HTML库答案,那就直接说吧。好吧,漂亮的汤有什么问题吗?这比实现你自己的不完整且充满bug的特殊解析器更方便。我的意思是,提供一个答案,说明如何使用Beautiful Soup从维基百科页面中获取介绍部分,就像提问者想要的那样。如果你是对的,这更方便,那么这应该是简单的,你的答案应该明显比我的好。