如何使用pdfminer从python中的pdf提取字段_Python_Django

如何使用pdfminer从python中的pdf提取字段

python django

如何使用pdfminer从python中的pdf提取字段,python,django,Python,Django,我有一个pdf表单，我需要提取电子邮件id、人名和其他信息，如技能、城市等。我如何使用pdfminer3做到这一点。请查看随附的pdf样本，尝试使用tika软件包： from tika import parser raw = parser.from_file('sample.pdf') print(raw['content']) 首先，使用tika将PDF转换为文本 import re import sys !{sys.executable} -m pip install tika fro

我有一个pdf表单，我需要提取电子邮件id、人名和其他信息，如技能、城市等。我如何使用pdfminer3做到这一点。

请查看随附的pdf样本，尝试使用tika软件包：

from tika import parser

raw = parser.from_file('sample.pdf')
print(raw['content'])

首先，使用tika将PDF转换为文本

import re
import sys
!{sys.executable} -m pip install tika
from tika import parser
from io import StringIO
from itertools import islice 

file = 'filename with directory'
parsedPDF = parser.from_file(file) # Parse data from file
text = parsedPDF['content'] # Get files text content

现在使用正则表达式提取所需字段。

你可以在网上找到大量的正则表达式教程。如果您在实现相同功能时遇到任何问题，请在此处询问。

我能够以文本格式阅读pdf。现在，我如何识别此人的姓名。因为pdf中没有关键字作为姓名