Mediawiki 从维基百科页面的摘要部分获取链接_Mediawiki_Wikipedia Api_Mediawiki Api_Pywikibot

Mediawiki 从维基百科页面的摘要部分获取链接

mediawiki

Mediawiki 从维基百科页面的摘要部分获取链接,mediawiki,wikipedia-api,mediawiki-api,pywikibot,Mediawiki,Wikipedia Api,Mediawiki Api,Pywikibot,我试图从维基百科页面的摘要部分提取链接。我尝试了以下方法：此url提取深度学习页面的所有链接：对于提取与任何节关联的链接，我可以根据节id进行过滤-例如对于同一页面的定义部分，我可以使用以下url：对于同一页面的概述部分，我可以使用以下url：但是我不知道如何只提取摘要部分的链接我甚至尝试使用pywikibot提取linkedpages并调整plnamespace变量，但无法仅获取摘要部分的链接。您需要使用请注意，这还包括中的链接 {{machine learning bar}

我试图从维基百科页面的摘要部分提取链接。我尝试了以下方法：

此url提取

深度学习

页面的所有链接：

对于提取与任何节关联的链接，我可以根据节id进行过滤-例如

对于同一页面的

定义

部分，我可以使用以下url：

对于同一页面的

概述

部分，我可以使用以下url：

但是我不知道如何只提取

摘要

部分的链接

我甚至尝试使用pywikibot提取linkedpages并调整

plnamespace

变量，但无法仅获取摘要部分的链接。

您需要使用

请注意，这还包括中的链接 {{machine learning bar}}和{{Artificial intelligence | approcess}}模板（在屏幕右侧）。

您需要使用

请注意，这还包括中的链接

{{machine learning bar}}和{{Artificial intelligence | approcess}}模板（在屏幕右侧）。

您可以通过以下命令使用Pywikibot

>>> import pywikibot
>>> from pwikibot import textlib
>>> site = pywikibot.Site('wikipedia:en')  # create a Site object
>>> page = pywikibot.Page(site, 'Deep learning')  # create a Page object
>>> sect = textlib.extract_sections(page.text, site)  # divide content into sections
>>> links = sorted(link.group('title') for link in pywikibot.link_regex.finditer(sect.head))

现在，

links

是一个列表，按字母顺序包含所有链接标题。如果您更喜欢

页面

对象，则可以使用

>>> pages = [pywikibot.Page(site, title) for title in links]

由您使用这些代码片段创建脚本。

您可以通过以下命令使用Pywikibot

>>> import pywikibot
>>> from pwikibot import textlib
>>> site = pywikibot.Site('wikipedia:en')  # create a Site object
>>> page = pywikibot.Page(site, 'Deep learning')  # create a Page object
>>> sect = textlib.extract_sections(page.text, site)  # divide content into sections
>>> links = sorted(link.group('title') for link in pywikibot.link_regex.finditer(sect.head))

现在，

links

是一个列表，按字母顺序包含所有链接标题。如果您更喜欢

页面

对象，则可以使用

>>> pages = [pywikibot.Page(site, title) for title in links]

由您使用这些代码片段创建脚本