用OpenCV检测表
我经常处理扫描过的文件。这些论文包含一些表格(类似于Excel表格),我需要手动将它们输入计算机。为了使任务更糟,表可以有不同的列数。至少可以说,手动将它们输入Excel是很平常的 我想如果我能把一个程序放到OCR上,我可以节省一周的工作。是否有可能用OpenCV和OCR检测标题文本区域检测到检测到的图像坐标后面的文本 我可以借助OpenCV实现这一点,还是需要完全不同的方法 编辑:示例表实际上只是一个标准表,类似于您在Excel和其他电子表格应用程序中看到的,请参见下文用OpenCV检测表,opencv,computer-vision,vision,Opencv,Computer Vision,Vision,我经常处理扫描过的文件。这些论文包含一些表格(类似于Excel表格),我需要手动将它们输入计算机。为了使任务更糟,表可以有不同的列数。至少可以说,手动将它们输入Excel是很平常的 我想如果我能把一个程序放到OCR上,我可以节省一周的工作。是否有可能用OpenCV和OCR检测标题文本区域检测到检测到的图像坐标后面的文本 我可以借助OpenCV实现这一点,还是需要完全不同的方法 编辑:示例表实际上只是一个标准表,类似于您在Excel和其他电子表格应用程序中看到的,请参见下文 这个问题似乎有点老,但
这个问题似乎有点老,但我也在研究一个类似的问题,并得到了我自己的解决方案,我在这里解释 对于使用任何OCR引擎阅读文本,要获得良好的准确性有许多挑战,其中包括以下主要情况:
在此情况下,还可以使用其字体信息对图纸标题、标题和正常单元格值进行分类 是的,你可以。但是,除非有明确的约束条件,否则很难得到100%完美的结果。你能展示一下你扫描过的表格吗?@Miki谢谢,我加了一个例子。你能提供一两份扫描过的文件吗?扫描质量对最终结果有很大影响。问题有两个部分:1。识别和提取表2。OCR第一部分相对容易,你可以找到像这样的教程:OCR相对更难。根据我的经验,它工作可靠,仅在高质量扫描或打印字体图像的情况下,几乎不需要人工干预。使OCR引擎在许多方面成为可能。。从支持向量机到深度学习。你可以找到适合你的专业知识的教程。@Datageek,我也在做类似的东西。当每个单元格都有更多的单词时,如果您成功地将行转换为数据,您能否分享您的经验?感谢@flamelite提供的详细答案。你知道有什么开源代码可以做到这一点吗?您是否发布了您的解决方案?我不确定是否有任何特定的开源应用程序完成了上述所有步骤。我没有开发任何应用程序,只需单击一个按钮即可完成上述所有操作。您能否解释一下如何执行删除表格的第二步?您可以按此处所述获取连接组件中所有像素的列表,然后将这些像素的颜色转换为背景色。@flamelite,感谢您分享您的经验。我也在做类似的事情。您是否也处理过这样的场景:每个单元格都会有更多的单词,这会使计算单元格内容变得不可能,例如,当一行有8列有10个单词时?如果是的话,你能分享一下你是如何解决的吗?