如何使用python从pdf中提取一些数学表达式?

如何使用python从pdf中提取一些数学表达式?,python,pdf,export-to-csv,mathematical-expressions,python-pdfreader,Python,Pdf,Export To Csv,Mathematical Expressions,Python Pdfreader,我有一个pdf,里面有这样的数学方程: 我试图从pdf中提取客观问题,并使用python将其转换为csv文件,这样表格的每一行都包含一个问题,每一列中包含四个选项和一个正确的选项。但pdf中也有一些数学公式,我无法将它们按原样写入csv文件。是否可以像在pdf文件中一样在我的csv文件中写入这些公式?这取决于公式在pdf中的表示方式。它可以是XObject、内联图像或unicode文本 试试看。它可以从PDF文档中提取纯文本、包含PDF命令的文本和图像 from pdfreader import

我有一个pdf,里面有这样的数学方程:


我试图从pdf中提取客观问题,并使用python将其转换为csv文件,这样表格的每一行都包含一个问题,每一列中包含四个选项和一个正确的选项。但pdf中也有一些数学公式,我无法将它们按原样写入csv文件。是否可以像在pdf文件中一样在我的csv文件中写入这些公式?

这取决于公式在pdf中的表示方式。它可以是XObject、内联图像或unicode文本

试试看。它可以从PDF文档中提取纯文本、包含PDF命令的文本和图像

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
images = []
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        images.extend(viewer.canvas.inline_images)
        images.extend(viewer.canvas.images.values())
        viewer.next()
except PageDoesNotExist:
    pass

pdf是用乳胶做的吗?我不知道我是用pylatex从internetTry下载的。会有帮助的