Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/11.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 从购物清单中提取总价_Algorithm_Ocr_Tesseract_Image Recognition - Fatal编程技术网

Algorithm 从购物清单中提取总价

Algorithm 从购物清单中提取总价,algorithm,ocr,tesseract,image-recognition,Algorithm,Ocr,Tesseract,Image Recognition,我正在开发一个应用程序,在这个应用程序中,我需要从图片中获取任何购物清单中显示的净价。我已经使用tesseract ocr API从票据图像中检索到可编辑文本。现在我只需要打印文本中的总金额。如何从包含项目名称、数量和价格的整个账单中仅提取部分总价 简单回答,我认为没有一种快速/便捷的方法可以直接调用 您需要查看从Tesseract返回的.hocr文件。您可以先在谷歌上搜索hocr以获取更多信息。.hocr包括文本x、y、宽度、高度、语言等的所有边界框。然后利用这些值,您可以确定单词是否在同一行

我正在开发一个应用程序,在这个应用程序中,我需要从图片中获取任何购物清单中显示的净价。我已经使用tesseract ocr API从票据图像中检索到可编辑文本。现在我只需要打印文本中的总金额。如何从包含项目名称、数量和价格的整个账单中仅提取部分总价

简单回答,我认为没有一种快速/便捷的方法可以直接调用

您需要查看从Tesseract返回的.hocr文件。您可以先在谷歌上搜索hocr以获取更多信息。.hocr包括文本x、y、宽度、高度、语言等的所有边界框。然后利用这些值,您可以确定单词是否在同一行上,单词“Total”和总量很可能打印在同一行上

从这里您可以列出单词的短名单,添加一些逻辑操作,或者删除所有字符/单词,然后您可以得到总值

ps:我的公司正在研究类似的东西,但我们决定不使用Tesseract,因为它有点慢,而且不容易训练。我们正在用几种语言处理收据。我们正在使用谷歌视觉API


希望我的回答能有所帮助:D

找到文本“总计”并显示旁边的数字?我不知道Tesseract API能做什么,但只是想一想:1它通常是账单上的最高数字,2它通常用大字体或粗体字打印,3它通常出现在纸张的顶部或底部谢谢!我要试试这些。你能给我推荐一些适合不同类型账单的算法吗?