以pdf(Java)格式从扫描发票中提取发票编号、发票日期等

以pdf(Java)格式从扫描发票中提取发票编号、发票日期等,java,pdf,ocr,Java,Pdf,Ocr,一、 wan不需要使用Java提取发票编号、发票日期、税额和发票价格。发票将被扫描并保存为PDF格式。有人知道这有一个相对简单的可能性吗?这是完全可能的。根据你愿意付出多少努力,以及你所处的环境,你至少可以做两件事: 使用iText7 Core从pdf文件中提取文本,然后使用正则表达式查找文本中的内容 使用pfd2Data(iText7的附加组件)将发票(或其他pdf文档)与模板文档相匹配。如果匹配成功,pdf2Data将生成一个xml文件,其中包含pdf中的所有数据(您在模板中指定的数据)。

一、 wan不需要使用Java提取发票编号、发票日期、税额和发票价格。发票将被扫描并保存为PDF格式。有人知道这有一个相对简单的可能性吗?

这是完全可能的。根据你愿意付出多少努力,以及你所处的环境,你至少可以做两件事:

  • 使用iText7 Core从pdf文件中提取文本,然后使用正则表达式查找文本中的内容

  • 使用pfd2Data(iText7的附加组件)将发票(或其他pdf文档)与模板文档相匹配。如果匹配成功,pdf2Data将生成一个xml文件,其中包含pdf中的所有数据(您在模板中指定的数据)。从xml数据源提取数据应该很简单


是的,这是可能的:嗯。。。大概这取决于PDF格式。但是,让生成发票的程序也以另一种格式发出详细信息确实更好(更简单)。