如何使用python从pdf中提取特定值?
有没有一种方法可以使用NLP或python库从pdf中获取特定文本?您可以使用tika、textract或PyPDF2如何使用python从pdf中提取特定值?,python,pip,nlp,Python,Pip,Nlp,有没有一种方法可以使用NLP或python库从pdf中获取特定文本?您可以使用tika、textract或PyPDF2 from tika import parser data = parser.from_file('your_pdf.pdf') print(data['text']) 首先,使用以下命令安装PyPDF2库: pip安装PyPDF2 键入以下代码: 现在将pdfobject创建为pdf_文档,那么pdf中有多少页面使用了pdf_document.numPages 第一页=pdf
from tika import parser
data = parser.from_file('your_pdf.pdf')
print(data['text'])
首先,使用以下命令安装PyPDF2库: pip安装PyPDF2 键入以下代码: 现在将pdfobject创建为pdf_文档,那么pdf中有多少页面使用了pdf_document.numPages 第一页=pdf\u document.getPage0 打印第一页。提取文本 现在你可以阅读pdf文件了 如果您对我的回答有任何误解,请参考以下链接: 尝试从PDF文档中提取纯文本和包含PDF运算符的文本 下面是一个示例代码,从所有文档页面中提取上述所有内容
from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
plain_text = ""
pdf_markdown = ""
try:
while True:
viewer.render()
pdf_markdown += viewer.canvas.text_content
plain_text += "".join(viewer.canvas.strings)
viewer.next()
except PageDoesNotExist:
pass
到目前为止你试过什么?
from pdfreader import SimplePDFViewer, PageDoesNotExist
fd = open(you_pdf_file_name, "rb")
viewer = SimplePDFViewer(fd)
plain_text = ""
pdf_markdown = ""
try:
while True:
viewer.render()
pdf_markdown += viewer.canvas.text_content
plain_text += "".join(viewer.canvas.strings)
viewer.next()
except PageDoesNotExist:
pass