Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/cmake/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
有没有一种方法可以使用Python对一个文件夹中的所有pdf文件进行OCR?_Python - Fatal编程技术网

有没有一种方法可以使用Python对一个文件夹中的所有pdf文件进行OCR?

有没有一种方法可以使用Python对一个文件夹中的所有pdf文件进行OCR?,python,Python,正如标题所述,是否有一种方法可以使用Python对一个文件夹中的所有pdf文件进行OCR?我下面有这段代码,但它一次只包含一个OCR文件和提取文本。我想做一个文件夹中所有pdf的一般OCR。如果可能的话,请告诉我 from wand.image import Image from PIL import Image as PI import pyocr import pyocr.builders import io tool = pyocr.get_available_tools()[0] la

正如标题所述,是否有一种方法可以使用Python对一个文件夹中的所有pdf文件进行OCR?我下面有这段代码,但它一次只包含一个OCR文件和提取文本。我想做一个文件夹中所有pdf的一般OCR。如果可能的话,请告诉我

from wand.image import Image
from PIL import Image as PI
import pyocr
import pyocr.builders
import io

tool = pyocr.get_available_tools()[0]
lang = tool.get_available_languages()[1]

req_image = []
final_text = []

image_pdf = Image(filename="./PDF_FILE_NAME", resolution=300)
image_jpeg = image_pdf.convert('jpeg')

for img in req_image: 
    txt = tool.image_to_string(
        PI.open(io.BytesIO(img)),
        lang=lang,
        builder=pyocr.builders.TextBuilder()
    )
    final_text.append(txt)

我喜欢glob模块。
您可以根据给定文件夹的模式进行匹配。
下面是您的代码,并对其进行了一些编辑,以显示其工作原理

import glob
pdfs = glob.glob("./*.pdf")

for pdf in pdfs:
    image_pdf = Image(pdf, resolution=300)
    image_jpeg = image_pdf.convert('jpeg')
    txt = tool.image_to_string(
        PI.open(io.BytesIO(image_jpeg)),
        lang=lang,
        builder=pyocr.builders.TextBuilder()
    )
    final_text.append(txt)

我正在尝试导入pdf文件并导出OCR格式的pdf文件。代码是否输出OCR pdf?