Image processing 对不同格式的文档采用最佳OCR方法来查找特定信息_Image Processing_Machine Learning_Ocr_Data Science_Google Cloud Vision

Image processing 对不同格式的文档采用最佳OCR方法来查找特定信息

image-processing machine-learning

Image processing 对不同格式的文档采用最佳OCR方法来查找特定信息,image-processing,machine-learning,ocr,data-science,google-cloud-vision,Image Processing,Machine Learning,Ocr,Data Science,Google Cloud Vision,不幸的是，由于机密数据，我无法给出更具体的解释问题所以我有一些文档通常包含相同的信息，但格式不同。在大多数情况下，我要查找的值靠近文档上的关键字。OCR本身由Google Cloud Vision API负责，但处理不同格式的最佳方法是什么我的想法。。。是训练一个分类器来检测我正在处理的格式，然后选择合适的方法来找到目标值，我事先手工实现了。这既不方便也不可扩展。因此，我正在寻找一些我告诉的算法，例如，目标值在哪里，它看起来像什么等等解决这个问题的最佳ML方法是什么，或者您的想法是什么

不幸的是，由于机密数据，我无法给出更具体的解释

问题所以我有一些文档通常包含相同的信息，但格式不同。在大多数情况下，我要查找的值靠近文档上的关键字。OCR本身由Google Cloud Vision API负责，但处理不同格式的最佳方法是什么

我的想法。。。是训练一个分类器来检测我正在处理的格式，然后选择合适的方法来找到目标值，我事先手工实现了。这既不方便也不可扩展。因此，我正在寻找一些我告诉的算法，例如，目标值在哪里，它看起来像什么等等

解决这个问题的最佳ML方法是什么，或者您的想法是什么

作为数据类型的一个例子：假设我有来自20家不同超市的收据，我希望找到总成本，问题是每家公司的收据看起来都不一样。

最近我不得不使用OCR工具来处理类似的情况，不包括OCR工具本身，我没有使用任何ML方法，因为正如您所说，它是不可伸缩的

我不认为分类器会有回报，除非你有大量不同的布局，然后你必须决定如何提取每个布局的数据

这在很大程度上取决于您需要提取的数据类型，但以您的示例为例，如果您必须从所有不同的布局中提取总成本，您可以从每个收据中提取尽可能多的数字，并根据一些因素对其进行评分，例如：

如果是成本（$或其他货币符号）

与一些常用关键字的距离，如“总计、最终、总和等”

如果这是收据的最高值

您可能会想到的其他因素，都取决于您需要提取的数据

然后，您可以使用每个收据得分最高的单个成本来计算最终总成本

听起来这是可行的。谢谢你的想法，我来试试。