Mediawiki 从维基百科页面的摘要部分获取链接

Mediawiki 从维基百科页面的摘要部分获取链接,mediawiki,wikipedia-api,mediawiki-api,pywikibot,Mediawiki,Wikipedia Api,Mediawiki Api,Pywikibot,我试图从维基百科页面的摘要部分提取链接。我尝试了以下方法: 此url提取深度学习页面的所有链接: 对于提取与任何节关联的链接,我可以根据节id进行过滤-例如 对于同一页面的定义部分,我可以使用以下url: 对于同一页面的概述部分,我可以使用以下url: 但是我不知道如何只提取摘要部分的链接 我甚至尝试使用pywikibot提取linkedpages并调整plnamespace变量,但无法仅获取摘要部分的链接。您需要使用 请注意,这还包括中的链接 {{machine learning bar}

我试图从维基百科页面的摘要部分提取链接。我尝试了以下方法:

此url提取
深度学习
页面的所有链接:

对于提取与任何节关联的链接,我可以根据节id进行过滤-例如

对于同一页面的
定义
部分,我可以使用以下url:

对于同一页面的
概述
部分,我可以使用以下url:

但是我不知道如何只提取
摘要
部分的链接

我甚至尝试使用pywikibot提取linkedpages并调整
plnamespace
变量,但无法仅获取摘要部分的链接。

您需要使用

请注意,这还包括中的链接 {{machine learning bar}}和{{Artificial intelligence | approcess}}模板(在屏幕右侧)。

您需要使用

请注意,这还包括中的链接
{{machine learning bar}}和{{Artificial intelligence | approcess}}模板(在屏幕右侧)。

您可以通过以下命令使用Pywikibot

>>> import pywikibot
>>> from pwikibot import textlib
>>> site = pywikibot.Site('wikipedia:en')  # create a Site object
>>> page = pywikibot.Page(site, 'Deep learning')  # create a Page object
>>> sect = textlib.extract_sections(page.text, site)  # divide content into sections
>>> links = sorted(link.group('title') for link in pywikibot.link_regex.finditer(sect.head))
现在,
links
是一个列表,按字母顺序包含所有链接标题。如果您更喜欢
页面
对象,则可以使用

>>> pages = [pywikibot.Page(site, title) for title in links]

由您使用这些代码片段创建脚本。

您可以通过以下命令使用Pywikibot

>>> import pywikibot
>>> from pwikibot import textlib
>>> site = pywikibot.Site('wikipedia:en')  # create a Site object
>>> page = pywikibot.Page(site, 'Deep learning')  # create a Page object
>>> sect = textlib.extract_sections(page.text, site)  # divide content into sections
>>> links = sorted(link.group('title') for link in pywikibot.link_regex.finditer(sect.head))
现在,
links
是一个列表,按字母顺序包含所有链接标题。如果您更喜欢
页面
对象,则可以使用

>>> pages = [pywikibot.Page(site, title) for title in links]
由您使用这些代码片段创建脚本