Mediawiki 从维基百科页面的摘要部分获取链接
我试图从维基百科页面的摘要部分提取链接。我尝试了以下方法: 此url提取Mediawiki 从维基百科页面的摘要部分获取链接,mediawiki,wikipedia-api,mediawiki-api,pywikibot,Mediawiki,Wikipedia Api,Mediawiki Api,Pywikibot,我试图从维基百科页面的摘要部分提取链接。我尝试了以下方法: 此url提取深度学习页面的所有链接: 对于提取与任何节关联的链接,我可以根据节id进行过滤-例如 对于同一页面的定义部分,我可以使用以下url: 对于同一页面的概述部分,我可以使用以下url: 但是我不知道如何只提取摘要部分的链接 我甚至尝试使用pywikibot提取linkedpages并调整plnamespace变量,但无法仅获取摘要部分的链接。您需要使用 请注意,这还包括中的链接 {{machine learning bar}
深度学习
页面的所有链接:
对于提取与任何节关联的链接,我可以根据节id进行过滤-例如
对于同一页面的定义
部分,我可以使用以下url:
对于同一页面的概述
部分,我可以使用以下url:
但是我不知道如何只提取摘要
部分的链接
我甚至尝试使用pywikibot提取linkedpages并调整plnamespace
变量,但无法仅获取摘要部分的链接。您需要使用
请注意,这还包括中的链接
{{machine learning bar}}和{{Artificial intelligence | approcess}}模板(在屏幕右侧)。您需要使用
请注意,这还包括中的链接
{{machine learning bar}}和{{Artificial intelligence | approcess}}模板(在屏幕右侧)。您可以通过以下命令使用Pywikibot
>>> import pywikibot
>>> from pwikibot import textlib
>>> site = pywikibot.Site('wikipedia:en') # create a Site object
>>> page = pywikibot.Page(site, 'Deep learning') # create a Page object
>>> sect = textlib.extract_sections(page.text, site) # divide content into sections
>>> links = sorted(link.group('title') for link in pywikibot.link_regex.finditer(sect.head))
现在,links
是一个列表,按字母顺序包含所有链接标题。如果您更喜欢页面
对象,则可以使用
>>> pages = [pywikibot.Page(site, title) for title in links]
由您使用这些代码片段创建脚本。您可以通过以下命令使用Pywikibot
>>> import pywikibot
>>> from pwikibot import textlib
>>> site = pywikibot.Site('wikipedia:en') # create a Site object
>>> page = pywikibot.Page(site, 'Deep learning') # create a Page object
>>> sect = textlib.extract_sections(page.text, site) # divide content into sections
>>> links = sorted(link.group('title') for link in pywikibot.link_regex.finditer(sect.head))
现在,links
是一个列表,按字母顺序包含所有链接标题。如果您更喜欢页面
对象,则可以使用
>>> pages = [pywikibot.Page(site, title) for title in links]
由您使用这些代码片段创建脚本