如何使用python访问pdf表单中的数据?

如何使用python访问pdf表单中的数据?,python,forms,pdf,Python,Forms,Pdf,我需要访问pdf表单字段中的数据。我使用以下代码尝试了PyPDF2包: import PyPDF2 pdfFileObj = open('formular.pdf', 'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) print(pdfReader.getPage(0).extractText()) 但这只提供了普通pdf数据的文本,而不是表单字段 有人知道如何从表单字段中读取文本吗?python中有一个库,您可以通过它访问pdf数据。由于

我需要访问pdf表单字段中的数据。我使用以下代码尝试了PyPDF2包:

import PyPDF2

pdfFileObj = open('formular.pdf', 'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
print(pdfReader.getPage(0).extractText())
但这只提供了普通pdf数据的文本,而不是表单字段


有人知道如何从表单字段中读取文本吗?

python中有一个库,您可以通过它访问
pdf
数据。由于
pdf
不是像
csv
txt
tsv
等原始数据,因此python无法直接读取
pdf
文件中的数据


python库名为
slate
。阅读本文档。我希望您能得到问题的答案。

python中有一个库,您可以通过它访问
pdf
数据。由于
pdf
不是像
csv
txt
tsv
等原始数据,因此python无法直接读取
pdf
文件中的数据


python库名为
slate
。阅读本文档。我希望您能得到问题的答案。

您可以使用getFormTextFields()方法返回表单字段字典(请参阅)。使用字典键(字段名)访问值(字段值)。以下示例可能会有所帮助:

from PyPDF2 import PdfFileReader

infile = "myInputPdf.pdf"
pdf_reader = PdfFileReader(open(infile, "rb"))

dictionary = pdf_reader.getFormTextFields() # returns a python dictionary
my_field_value = str(dictionary['my_field_name']) # use field name (dictionary key) to access field value (dictionary value)

可以使用getFormTextFields()方法返回表单字段字典(请参阅)。使用字典键(字段名)访问值(字段值)。以下示例可能会有所帮助:

from PyPDF2 import PdfFileReader

infile = "myInputPdf.pdf"
pdf_reader = PdfFileReader(open(infile, "rb"))

dictionary = pdf_reader.getFormTextFields() # returns a python dictionary
my_field_value = str(dictionary['my_field_name']) # use field name (dictionary key) to access field value (dictionary value)

我已经得到了pdf文本,但没有表单字段的文本。例如,如果我有这样一个表单:(括号代表Formfield)PDF表单名称:(testname)FirstName:(abcde)那么我只得到以下信息:PDF表单名称:FirstName:但是我想要的是信息“testname”和“abcde”,我已经得到了PDF文本,但没有表单字段的文本。例如,如果我有这样一个表单:(括号代表Formfield)PDF表单名称:(testname)名字:(abcde)那么我只得到以下信息:PDF表单名称:名字:但我想要的是“testname”和“abcde”的信息,非常感谢。这正是我想要的。非常感谢。这正是我想要的。