Python PyPDF读取文件夹中的每个PDF

Python PyPDF读取文件夹中的每个PDF,python,python-3.x,pypdf2,Python,Python 3.x,Pypdf2,我有下面正在工作的代码。但它一次只读取一个文件,我必须将其插入代码中。我怎样才能让这段代码读取目录中的每个PDF?PDF格式 import PyPDF2 import textract import re filename = 'file.pdf' pdfFileObj = open(filename,'rb') pdfReader = PyPDF2.PdfFileReader(pdfFileObj) num_pages = pdfReader.numPa

我有下面正在工作的代码。但它一次只读取一个文件,我必须将其插入代码中。我怎样才能让这段代码读取目录中的每个PDF?PDF格式

import PyPDF2
import textract
import re

filename = 'file.pdf' 
pdfFileObj = open(filename,'rb')               
pdfReader = PyPDF2.PdfFileReader(pdfFileObj)   
num_pages = pdfReader.numPages  

count = 0
extractedtext = ""

while count < num_pages:                       
    pageObj = pdfReader.getPage(count)
    count +=1
    wortlaut += pageObj.extractText()

print(extractedtext)    

keyword = re.findall(r'(\d{7})(\-)(\d{2})',extractedtext)
if keyword:
print(keyword)

导入PyPDF2
导入文本摘要
进口稀土
filename='file.pdf'
pdfFileObj=open(文件名为'rb')
pdfReader=PyPDF2.PdfileReader(PdfileObj)
num_pages=pdfReader.numPages
计数=0
extractedtext=“”
当计数
您可以使用获取目录中的PDF文件列表。
您还可以接受要在其中操作的目录的命令行参数。
调用此程序时使用:
python3 this\u script.py目录\u to\u read

import PyPDF2
import glob 
import os 
import re
import sys

dir_to_read = sys.argv[1] # accept a command-line argument with the dir to read
pdf_files = glob.glob(os.path.join(dir_to_read,'*.pdf'))

count = 0
extractedtext = ""
for pdf_file in pdf_files:
    print(pdf_file)
    pdfFileObj = open(pdf_file,'rb')               
    pdfReader = PyPDF2.PdfFileReader(pdfFileObj)   
    num_pages = pdfReader.numPages  

    print(num_pages)

    while count < num_pages:                       
        pageObj = pdfReader.getPage(count)
        count +=1
        extractedtext += pageObj.extractText()

    print(extractedtext)    

    keyword = re.findall(r'(\d{7})(\-)(\d{2})',extractedtext)
    if keyword:
        print(keyword)
导入PyPDF2
导入glob
导入操作系统
进口稀土
导入系统
dir_to_read=sys.argv[1]#接受带有dir to read的命令行参数
pdf_files=glob.glob(os.path.join(dir_to_read,*.pdf'))
计数=0
extractedtext=“”
对于pdf_文件中的pdf_文件:
打印(pdf\U文件)
pdfFileObj=打开(pdf_文件,'rb')
pdfReader=PyPDF2.PdfileReader(PdfileObj)
num_pages=pdfReader.numPages
打印(页数)
当计数
具体来说,您在努力解决哪一部分?你知道如何使用循环吗?