Python PyPDF读取文件夹中的每个PDF
我有下面正在工作的代码。但它一次只读取一个文件,我必须将其插入代码中。我怎样才能让这段代码读取目录中的每个PDF?PDF格式Python PyPDF读取文件夹中的每个PDF,python,python-3.x,pypdf2,Python,Python 3.x,Pypdf2,我有下面正在工作的代码。但它一次只读取一个文件,我必须将其插入代码中。我怎样才能让这段代码读取目录中的每个PDF?PDF格式 import PyPDF2 import textract import re filename = 'file.pdf' pdfFileObj = open(filename,'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) num_pages = pdfReader.numPa
import PyPDF2
import textract
import re
filename = 'file.pdf'
pdfFileObj = open(filename,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num_pages = pdfReader.numPages
count = 0
extractedtext = ""
while count < num_pages:
pageObj = pdfReader.getPage(count)
count +=1
wortlaut += pageObj.extractText()
print(extractedtext)
keyword = re.findall(r'(\d{7})(\-)(\d{2})',extractedtext)
if keyword:
print(keyword)
导入PyPDF2
导入文本摘要
进口稀土
filename='file.pdf'
pdfFileObj=open(文件名为'rb')
pdfReader=PyPDF2.PdfileReader(PdfileObj)
num_pages=pdfReader.numPages
计数=0
extractedtext=“”
当计数
您可以使用获取目录中的PDF文件列表。您还可以接受要在其中操作的目录的命令行参数。
调用此程序时使用:
python3 this\u script.py目录\u to\u read
import PyPDF2
import glob
import os
import re
import sys
dir_to_read = sys.argv[1] # accept a command-line argument with the dir to read
pdf_files = glob.glob(os.path.join(dir_to_read,'*.pdf'))
count = 0
extractedtext = ""
for pdf_file in pdf_files:
print(pdf_file)
pdfFileObj = open(pdf_file,'rb')
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)
num_pages = pdfReader.numPages
print(num_pages)
while count < num_pages:
pageObj = pdfReader.getPage(count)
count +=1
extractedtext += pageObj.extractText()
print(extractedtext)
keyword = re.findall(r'(\d{7})(\-)(\d{2})',extractedtext)
if keyword:
print(keyword)
导入PyPDF2
导入glob
导入操作系统
进口稀土
导入系统
dir_to_read=sys.argv[1]#接受带有dir to read的命令行参数
pdf_files=glob.glob(os.path.join(dir_to_read,*.pdf'))
计数=0
extractedtext=“”
对于pdf_文件中的pdf_文件:
打印(pdf\U文件)
pdfFileObj=打开(pdf_文件,'rb')
pdfReader=PyPDF2.PdfileReader(PdfileObj)
num_pages=pdfReader.numPages
打印(页数)
当计数
具体来说,您在努力解决哪一部分?你知道如何使用循环吗?