Python 如何使用pytesseract从pdf文件中的图像中提取文本

Python 如何使用pytesseract从pdf文件中的图像中提取文本,python,pdf,python-tesseract,Python,Pdf,Python Tesseract,我试图使用下面的代码从pdf文件的图像中提取文本。 PDF文件是合同文件,是合同的扫描副本。pdf文件中的所有页面都是图像 当我尝试使用下面的代码提取数据时,我收到一个错误,表示它无法读取文件/无法识别图像文件 try: import Image except ImportError: from PIL import Image import pytesseract pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Fi

我试图使用下面的代码从pdf文件的图像中提取文本。 PDF文件是合同文件,是合同的扫描副本。pdf文件中的所有页面都是图像

当我尝试使用下面的代码提取数据时,我收到一个错误,表示它无法读取文件/无法识别图像文件

try:
    import Image
except ImportError:
    from PIL import Image

import pytesseract

pytesseract.pytesseract.tesseract_cmd = 'C:\\Program Files (x86)\\Tesseract-OCR\\tesseract.exe'

# Simple image to string
#print(pytesseract.image_to_string(Image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf')))
回溯(最近一次呼叫最后一次):

文件“C:\Users\Administrator\eclipse workspace\tesseract\test\greetings.py”,第18行,在
打印(pytesseract.image_到_字符串(image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python37\\Scripts\\1184.pdf'))
文件“C:\Users\Administrator\AppData\Local\Programs\Python37\lib\site packages\PIL\Image.py”,第2622行,处于打开状态
%(如果文件名为fp,则为文件名)
OS错误:无法识别图像文件“C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf”

请帮助我如何开始尝试以图像形式打开pdf文件。不可能在他们的文档中声明他们不支持阅读pdf文件请参见:


无论如何,您可以使用库pdf2image将pdf转换为图像,然后使用pillow打开它并将其馈送给tesseract。

您尝试将pdf文件作为图像打开。不可能在他们的文档中声明他们不支持阅读pdf文件请参见:


无论如何,您可以使用库pdf2image将pdf转换为图像,然后使用pillow打开它并将其馈送给tesseract。

发生这种情况的原因是它找不到该文件。因此,路径可能是错误的(或者您应该使用原始字符串)。因此路径可能是错误的(或者您应该使用原始字符串)。
  File "C:\Users\Administrator\eclipse-workspace\tesseract\test\greetings.py", line 18, in <module>
    print(pytesseract.image_to_string(Image.open('C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf')))
  File "C:\Users\Administrator\AppData\Local\Programs\Python\Python37\lib\site-packages\PIL\Image.py", line 2622, in open
    % (filename if filename else fp))
OSError: cannot identify image file 'C:\\Users\\Administrator\\AppData\\Local\\Programs\\Python\\Python37\\Scripts\\1184.pdf'