Python 2.7 如何获取特定的维基百科页面部分?
我想创建一个演员和他们演过的电影的图形数据库。为了获得演员和电影的列表,我尝试使用pywikibot解析器,但我只能获得完整的页面,而我只需要页面的电影记录部分。有没有办法解析页面,这样我就可以获得电影记录?以下是我迄今为止所做的工作:Python 2.7 如何获取特定的维基百科页面部分?,python-2.7,wikipedia-api,pywikibot,Python 2.7,Wikipedia Api,Pywikibot,我想创建一个演员和他们演过的电影的图形数据库。为了获得演员和电影的列表,我尝试使用pywikibot解析器,但我只能获得完整的页面,而我只需要页面的电影记录部分。有没有办法解析页面,这样我就可以获得电影记录?以下是我迄今为止所做的工作: import pywikibot as pw site = pw.Site() page = pw.Page(site, actor_name) #will be put into loop to get multiple actors print page.
import pywikibot as pw
site = pw.Site()
page = pw.Page(site, actor_name) #will be put into loop to get multiple actors
print page.text #returns full text of the page in format below
print page.linkedPages #returns linked pages
一个想法是返回与演员相关的所有链接页面,因为大多数电影都是链接的。我获取文本数据的格式如下:
{{Infobox person
| name =
| birth name =
}}
Summary
==Early life==
==Career==
==Filmography==
我该怎么做才能只获取页面的电影记录部分?您可以使用。例如,要获取电影记录部分,您需要通过以下方式获取名为“电影记录”的部分的索引:
从回答中我们看到它是2。然后,我们必须使用该索引仅获取本节中的文本:
https://en.wikipedia.org/w/api.php?action=parse&prop=text§ion=2&page=William Alland
注意:使用prop=wikitext
而不是text
获取wiki格式的内容
https://en.wikipedia.org/w/api.php?action=parse&prop=text§ion=2&page=William Alland