Image processing 什么是好的算法来捕捉一个像样的图像放在首位？然后是预处理/图像清理，最后是OCR程序？_Image Processing_Computer Vision_Ocr

Image processing 什么是好的算法来捕捉一个像样的图像放在首位？然后是预处理/图像清理，最后是OCR程序？

image-processing computer-vision

Image processing 什么是好的算法来捕捉一个像样的图像放在首位？然后是预处理/图像清理，最后是OCR程序？,image-processing,computer-vision,ocr,Image Processing,Computer Vision,Ocr,我最近一直在做一个小项目。乍一看，这项任务似乎相当简单：为了稍后的OCR目的，捕获质量稍好的图像。输入设备是一种身份证阅读器原型，带有内置摄像头的摄像头，其捕获区域与信用卡、名片大小有关。问题是相机会一直处于活动状态，所以当没有卡片或文档放在设备上时，它会看到整个外部世界（例如，考虑一台装有摄像头用于人脸识别的ATM机。第一个问题是确定是否有人站在ATM机前面，可靠且稳健）在我的情况下，类似的问题是确定有效卡何时已完全放置在设备上且未移动，然后抓取一张或几张图像供后续处理模块使用我一直在四处

我最近一直在做一个小项目。乍一看，这项任务似乎相当简单：为了稍后的OCR目的，捕获质量稍好的图像。输入设备是一种身份证阅读器原型，带有内置摄像头的摄像头，其捕获区域与信用卡、名片大小有关。问题是相机会一直处于活动状态，所以当没有卡片或文档放在设备上时，它会看到整个外部世界（例如，考虑一台装有摄像头用于人脸识别的ATM机。第一个问题是确定是否有人站在ATM机前面，可靠且稳健）

在我的情况下，类似的问题是确定有效卡何时已完全放置在设备上且未移动，然后抓取一张或几张图像供后续处理模块使用

我一直在四处寻找类似的问题。一些答案非常有用且信息丰富，例如：

然而，他们都假设捕获工作已经相当体面地完成，这意味着没有运动模糊，文档或卡片的有效区域在其完整性中被捕获，等等。尽管上述链接中的示例本身在通常的人工制品方面确实是相当有挑战性的（例如，失真、曝光不均匀、文本线倾斜等），我的问题是我还没走那么远

总之，我正在寻找现有的方法/算法思想/相关论文或以下链接：

如何确定设备上是否放置了文档或卡片

如何确定卡的所有有效区域完全可见

我能想到一些可能有用的线索：

动议
要素点（有很多选择，但如何正确使用）
当内部摄像机被卡片或文件包围时，强度水平发生显著变化

对于第一个问题，难点在于动态背景，如行人、汽车、自然光的突然变化等

对于第二个问题，问题是卡或文件的类型不是固定的，不幸的是-至少我被告知：（这使得分类解决方案有点棘手，因为无法收集足够的培训样本，更不用说半张或每季度插入的卡片了…

几天前我正在从事一个类似的项目。您可以在这里查看

它也有android版本，但根据你的要求，card.io是非常好的开源api

git上的版本还可以读取轻度数学公式。

要检查卡是否到位，您可能可以比较两个标准：

图像静止：通过比较两个或多个连续图像并检查平均差值（SAD）是否大于噪声水平，可以实现这一点
有文本：当OCR检测到足够数量的字符时

对于问题的第二部分，我恐怕没有答案，因为卡片可能包含OCR无法识别的图形或图片，并且您永远无法确定是否看到部分卡片或带有额外内容的卡片。您可以检查整个区域边缘的颜色连续性，但这可能会引起错误警报