如何使用python从pdf中提取特定值？_Python_Pip_Nlp

如何使用python从pdf中提取特定值？

python pip nlp

如何使用python从pdf中提取特定值？,python,pip,nlp,Python,Pip,Nlp,有没有一种方法可以使用NLP或python库从pdf中获取特定文本？您可以使用tika、textract或PyPDF2 from tika import parser data = parser.from_file('your_pdf.pdf') print(data['text']) 首先，使用以下命令安装PyPDF2库： pip安装PyPDF2 键入以下代码：现在将pdfobject创建为pdf_文档，那么pdf中有多少页面使用了pdf_document.numPages 第一页=pdf

有没有一种方法可以使用NLP或python库从pdf中获取特定文本？您可以使用tika、textract或PyPDF2

from tika import parser
data = parser.from_file('your_pdf.pdf')
print(data['text'])

首先，使用以下命令安装PyPDF2库：

pip安装PyPDF2

键入以下代码：

现在将pdfobject创建为pdf_文档，那么pdf中有多少页面使用了pdf_document.numPages

第一页=pdf\u document.getPage0 打印第一页。提取文本

现在你可以阅读pdf文件了

如果您对我的回答有任何误解，请参考以下链接：

尝试从PDF文档中提取纯文本和包含PDF运算符的文本

下面是一个示例代码，从所有文档页面中提取上述所有内容

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        viewer.next()
except PageDoesNotExist:
    pass

到目前为止你试过什么？

from pdfreader import SimplePDFViewer, PageDoesNotExist

fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)

plain_text = ""
pdf_markdown = ""
try:
    while True:
        viewer.render()
        pdf_markdown += viewer.canvas.text_content
        plain_text += "".join(viewer.canvas.strings)
        viewer.next()
except PageDoesNotExist:
    pass