Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/353.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
如何使用python从pdf中提取特定值?_Python_Pip_Nlp - Fatal编程技术网

如何使用python从pdf中提取特定值?

如何使用python从pdf中提取特定值?,python,pip,nlp,Python,Pip,Nlp,有没有一种方法可以使用NLP或python库从pdf中获取特定文本?您可以使用tika、textract或PyPDF2 from tika import parser data = parser.from_file('your_pdf.pdf') print(data['text']) 首先,使用以下命令安装PyPDF2库: pip安装PyPDF2 键入以下代码: 现在将pdfobject创建为pdf_文档,那么pdf中有多少页面使用了pdf_document.numPages 第一页=pdf

有没有一种方法可以使用NLP或python库从pdf中获取特定文本?您可以使用tika、textract或PyPDF2

from tika import parser
data = parser.from_file('your_pdf.pdf')
print(data['text'])

首先,使用以下命令安装PyPDF2库:

pip安装PyPDF2

键入以下代码:

现在将pdfobject创建为pdf_文档,那么pdf中有多少页面使用了pdf_document.numPages

第一页=pdf\u document.getPage0 打印第一页。提取文本

现在你可以阅读pdf文件了

如果您对我的回答有任何误解,请参考以下链接:

尝试从PDF文档中提取纯文本和包含PDF运算符的文本

下面是一个示例代码,从所有文档页面中提取上述所有内容

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        viewer.next()
except PageDoesNotExist:
    pass


到目前为止你试过什么?
from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        viewer.next()
except PageDoesNotExist:
    pass