Python 如何将jpg格式的数据帧转换为csv?

Python 如何将jpg格式的数据帧转换为csv?,python,python-3.x,dataframe,ocr,python-3.7,Python,Python 3.x,Dataframe,Ocr,Python 3.7,我收到一些pdf或jpg格式的报告。我编写了一段代码,将pdf中的dataframe解析为csv。现在我想将jpg格式的数据帧转换为csv,然后给出预期的结构 我收到的文件结构: 我尝试了ocr,但我完全不知道如何管理这项任务。你能帮我提些建议吗? 当我尝试使用PIL和pytesseract时,如: from PIL import Image import pytesseract im = Image.open('a.jpg') text = pytesseract.image_to_s

我收到一些pdf或jpg格式的报告。我编写了一段代码,将pdf中的dataframe解析为csv。现在我想将jpg格式的数据帧转换为csv,然后给出预期的结构

我收到的文件结构:

我尝试了ocr,但我完全不知道如何管理这项任务。你能帮我提些建议吗? 当我尝试使用PIL和pytesseract时,如:

from PIL import Image
import pytesseract

im = Image.open('a.jpg')


text = pytesseract.image_to_string(im, lang = 'eng')

print(text)
但会出现奇怪的错误:

回溯(最近一次调用上次):文件 “C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”, 第184行,运行中 proc=subprocess.Popen(cmd_args,**subprocess_args())文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\subprocess.py”, 第775行,在init 还原信号,启动新会话)文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\subprocess.py”, 第1178行,in_execute_child startupinfo)FileNotFoundError:[WinError 2]系统找不到指定的文件

在处理上述异常期间,发生了另一个异常:

回溯(最近一次调用last):文件“copy_version1.py”,第7行, 在里面 text=pytesseract.image_to_string(im,lang='eng')文件“C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”, 第309行,在图像\u到\u字符串中 }输出类型文件“C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”, 第308行,输入 Output.STRING:lambda:run_and_get_Output(*args),文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site packages\pytesseract\pytesseract.py”, 第218行,运行和获取输出 运行_tesseract(**kwargs)文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site packages\pytesseract\pytesseract.py”, 第186行,运行中 引发TesseractNotFoundError()pytesseract.pytesseract.TesseractNotFoundError:tesseract不是 已安装或不在您的路径中


我希望有csv格式的数据框,然后我将管理文件以提供预期的结构。

您是如何从PDF中打包数据的?如果这也是偶然使用OCR?我使用tabla py从pdf中读取数据帧,并将其存储在df中以管理列等。您如何从pdf中打包数据?如果这也是偶然使用OCR的话?我使用tabla-py从pdf中读取数据帧,并将其存储在df中以管理列等。