Python 如何将jpg格式的数据帧转换为csv?
我收到一些pdf或jpg格式的报告。我编写了一段代码,将pdf中的dataframe解析为csv。现在我想将jpg格式的数据帧转换为csv,然后给出预期的结构 我收到的文件结构: 我尝试了ocr,但我完全不知道如何管理这项任务。你能帮我提些建议吗? 当我尝试使用PIL和pytesseract时,如:Python 如何将jpg格式的数据帧转换为csv?,python,python-3.x,dataframe,ocr,python-3.7,Python,Python 3.x,Dataframe,Ocr,Python 3.7,我收到一些pdf或jpg格式的报告。我编写了一段代码,将pdf中的dataframe解析为csv。现在我想将jpg格式的数据帧转换为csv,然后给出预期的结构 我收到的文件结构: 我尝试了ocr,但我完全不知道如何管理这项任务。你能帮我提些建议吗? 当我尝试使用PIL和pytesseract时,如: from PIL import Image import pytesseract im = Image.open('a.jpg') text = pytesseract.image_to_s
from PIL import Image
import pytesseract
im = Image.open('a.jpg')
text = pytesseract.image_to_string(im, lang = 'eng')
print(text)
但会出现奇怪的错误:
回溯(最近一次调用上次):文件
“C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”,
第184行,运行中
proc=subprocess.Popen(cmd_args,**subprocess_args())文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\subprocess.py”,
第775行,在init
还原信号,启动新会话)文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\subprocess.py”,
第1178行,in_execute_child
startupinfo)FileNotFoundError:[WinError 2]系统找不到指定的文件
在处理上述异常期间,发生了另一个异常:
回溯(最近一次调用last):文件“copy_version1.py”,第7行,
在里面
text=pytesseract.image_to_string(im,lang='eng')文件“C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”,
第309行,在图像\u到\u字符串中
}输出类型文件“C:\Users\user\AppData\Local\Programs\Python37\lib\site packages\pytesseract\pytesseract.py”,
第308行,输入
Output.STRING:lambda:run_and_get_Output(*args),文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site packages\pytesseract\pytesseract.py”,
第218行,运行和获取输出
运行_tesseract(**kwargs)文件“C:\Users\user\AppData\Local\Programs\Python\Python37\lib\site packages\pytesseract\pytesseract.py”,
第186行,运行中
引发TesseractNotFoundError()pytesseract.pytesseract.TesseractNotFoundError:tesseract不是
已安装或不在您的路径中
我希望有csv格式的数据框,然后我将管理文件以提供预期的结构。您是如何从PDF中打包数据的?如果这也是偶然使用OCR?我使用tabla py从pdf中读取数据帧,并将其存储在df中以管理列等。您如何从pdf中打包数据?如果这也是偶然使用OCR的话?我使用tabla-py从pdf中读取数据帧,并将其存储在df中以管理列等。