Parsing 使用OCR解析和分析收据

Parsing 使用OCR解析和分析收据,parsing,ocr,Parsing,Ocr,我正在做一个项目,可以使用OCR读取收据并对其进行解析,以获取重要信息,如商户名称、日期、金额等。我正在使用谷歌提供的解析图像并以JSON格式从中获取文本。现在我想进入下一步,在那里我可以解析文本,并尝试通过它的位置或表达式来识别信息。现在我可以从简单的货币中提取金额,后跟数字字符串。从这一点上看,我应该在哪里分析文本以提取任何信息(尝试开发一个可以从任何类型的收据中提取信息的系统)。即使是一个小小的线索也能帮助我前进 谢谢 我开始从返回的文本格式中提取信息,方法是查找诸如“日期”、“金额”、“

我正在做一个项目,可以使用OCR读取收据并对其进行解析,以获取重要信息,如商户名称、日期、金额等。我正在使用谷歌提供的解析图像并以JSON格式从中获取文本。现在我想进入下一步,在那里我可以解析文本,并尝试通过它的位置或表达式来识别信息。现在我可以从简单的货币中提取金额,后跟数字字符串。从这一点上看,我应该在哪里分析文本以提取任何信息(尝试开发一个可以从任何类型的收据中提取信息的系统)。即使是一个小小的线索也能帮助我前进


谢谢

我开始从返回的文本格式中提取信息,方法是查找诸如“日期”、“金额”、“总计”、“卢比”之类的标记。我开发了一种算法,将发现的不同数字作为实际数量进行排序。此外,我还通过删除诸如(“the”、“in”、“welcome”)等代币来获得商户名称,在大多数情况下,该名称位于收据顶部。

目前,我也在处理这个案例。你能解释一下你的排名算法吗@sandyHi@DharmaSaputra,我正在使用字符串的正则表达式来检查它是否形成了数量。与“总计”、“金额”等关键词最接近的字符串的排名更高。