从维基百科页面提取公式-Python

从维基百科页面提取公式-Python,python,web-scraping,wikipedia-api,Python,Web Scraping,Wikipedia Api,我正在提取wikipedia页面,并使用python将其写入文件中。目前我正在这样做: 代码段: keyWords = ["kinetic energy", "gravitational force"] for word in keyWords: topic = wikipedia.page(word) text = topic.content print text 但内容在显示公式时格式不正确。 例如: F = ma becomes something like :

我正在提取wikipedia页面,并使用python将其写入文件中。目前我正在这样做: 代码段:

keyWords = ["kinetic energy", "gravitational force"]

for word in keyWords:
    topic = wikipedia.page(word)
    text = topic.content
    print text
但内容在显示公式时格式不正确。 例如:

F = ma becomes something like :

F

   m

a

你能帮我弄清楚怎样才能把数学公式弄清楚吗。谢谢大家!

维基百科模块抓取的维基百科页面中没有乳胶。为了从维基百科页面中提取所有方程式,您可以利用BeautifulSoup包

import wikipedia
from bs4 import BeautifulSoup

topic = wikipedia.page('kinetic energy')
equations = BeautifulSoup(topic.html()).find_all('annotation')
然后,您可以通过

equations[0].text
#'{\\displaystyle {\\vec {F}}=m{\\vec {a}}}'


虽然这仍然不是一个完全有用的格式。您还应该注意,在引用变量时往往会出现很多“一个字母”的公式,因此这可能不是最好的方法。你想实现什么?

谢谢你的这种方法。我要试试这个!我想创建大约2000个主题的文本文件,并查询它们以进行信息检索。
equations[0].text.split('{\\displaystyle ')[1][:-1]
#'{\\vec {F}}=m{\\vec {a}}'