Python 如何将jpg格式的数据帧转换为csv？_Python_Python 3.x_Dataframe_Ocr_Python 3.7

Python 如何将jpg格式的数据帧转换为csv？

python python-3.x dataframe

Python 如何将jpg格式的数据帧转换为csv？,python,python-3.x,dataframe,ocr,python-3.7,Python,Python 3.x,Dataframe,Ocr,Python 3.7,我收到一些pdf或jpg格式的报告。我编写了一段代码，将pdf中的dataframe解析为csv。现在我想将jpg格式的数据帧转换为csv，然后给出预期的结构我收到的文件结构：我尝试了ocr，但我完全不知道如何管理这项任务。你能帮我提些建议吗？当我尝试使用PIL和pytesseract时，如： from PIL import Image import pytesseract im = Image.open('a.jpg') text = pytesseract.image_to_s

我收到一些pdf或jpg格式的报告。我编写了一段代码，将pdf中的dataframe解析为csv。现在我想将jpg格式的数据帧转换为csv，然后给出预期的结构

我收到的文件结构：

我尝试了ocr，但我完全不知道如何管理这项任务。你能帮我提些建议吗？当我尝试使用PIL和pytesseract时，如：

from PIL import Image
import pytesseract

im = Image.open('a.jpg')


text = pytesseract.image_to_string(im, lang = 'eng')

print(text)

但会出现奇怪的错误：

回溯（最近一次调用上次）：文件 “C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”，第184行，运行中 proc=subprocess.Popen（cmd_args，**subprocess_args（））文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\subprocess.py”，第775行，在init 还原信号，启动新会话）文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\subprocess.py”，第1178行，in_execute_child startupinfo）FileNotFoundError:[WinError 2]系统找不到指定的文件

在处理上述异常期间，发生了另一个异常：

回溯（最近一次调用last）：文件“copy_version1.py”，第7行，在里面 text=pytesseract.image_to_string（im，lang='eng'）文件“C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”，第309行，在图像\u到\u字符串中 }输出类型文件“C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”，第308行，输入 Output.STRING:lambda:run_and_get_Output（*args），文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site packages\pytesseract\pytesseract.py”，第218行，运行和获取输出运行_tesseract（**kwargs）文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site packages\pytesseract\pytesseract.py”，第186行，运行中引发TesseractNotFoundError（）pytesseract.pytesseract.TesseractNotFoundError:tesseract不是已安装或不在您的路径中

我希望有csv格式的数据框，然后我将管理文件以提供预期的结构。

您是如何从PDF中打包数据的？如果这也是偶然使用OCR？我使用tabla py从pdf中读取数据帧，并将其存储在df中以管理列等。您如何从pdf中打包数据？如果这也是偶然使用OCR的话？我使用tabla-py从pdf中读取数据帧，并将其存储在df中以管理列等。