提取表格图像数据并使用python将其保存为CSV格式
获取图像格式的表格数据(参见图1) 表格数据需要提取并以CSV格式保存(与表格相同) 我用pytesseract从图像中读取数据,部分工作正常 代码: 输出: 输出文件以文本格式打开,我无法获得完美的csv格式(如图中的表格)提取表格图像数据并使用python将其保存为CSV格式,python,Python,获取图像格式的表格数据(参见图1) 表格数据需要提取并以CSV格式保存(与表格相同) 我用pytesseract从图像中读取数据,部分工作正常 代码: 输出: 输出文件以文本格式打开,我无法获得完美的csv格式(如图中的表格) 任何帮助都将不胜感激。TIA这是数据挖掘领域中一个众所周知但尚未普遍解决的问题,称为表检测。我猜肯定不会有现成的解决方案。哦……好的。当我试图将其直接保存为csv文件时,数据被填充为'R'、'E'、'P'、'O'…每个单元格都有每个字符。我面临着同样的问题,有解决方案
任何帮助都将不胜感激。TIA这是数据挖掘领域中一个众所周知但尚未普遍解决的问题,称为表检测。我猜肯定不会有现成的解决方案。哦……好的。当我试图将其直接保存为csv文件时,数据被填充为'R'、'E'、'P'、'O'…每个单元格都有每个字符。我面临着同样的问题,有解决方案吗?
from PIL import Image
from ast import literal_eval
import pytesseract,csv,re,os
pytesseract.pytesseract.tesseract_cmd = r'C:\Program Files (x86)\Tesseract-OCR\tesseract.exe'
result = pytesseract.image_to_string(Image.open(r'D:\Sample.jpg'),lang="eng")
#print(type(result))
print(result)
with open('D:\people.csv', 'w') as outfile:
writer = csv.writer(outfile)
#writer.replace(",", "")
writer.writerow(result)
string = open('D:\people.csv').read()
new_str = re.sub('[^a-zA-Z0-9\n\.]', ' ', string)
open('D:\people.csv', 'w').write(new_str)