Java 将图像转换为可搜索的pdf

Java 将图像转换为可搜索的pdf,java,pdf,ocr,tiff,Java,Pdf,Ocr,Tiff,您好,我正在寻找一个开源的java API,可以将tiff图像转换为可搜索的pdf(OCR)。我四处调查过,但到目前为止什么也没发现 注意 我看过这篇文章,但这个API没有将图像转换成pdf . 但是,我仍然在玩代码。您可以使用iText将图像转换为PDF。这里最困难的是做OCR,而不是创建PDF 我要警告你:任何值得使用的OCR引擎都将花费你大量的金钱。免费和/或开源项目通常是宠物项目,是某些算法或其他算法的概念证明。不适用于真实世界的OCR应用程序。Tesseract可能是同类产品中最好的,

您好,我正在寻找一个开源的java API,可以将tiff图像转换为可搜索的pdf(OCR)。我四处调查过,但到目前为止什么也没发现

注意 我看过这篇文章,但这个API没有将图像转换成pdf
. 但是,我仍然在玩代码。

您可以使用iText将图像转换为PDF。这里最困难的是做OCR,而不是创建PDF

我要警告你:任何值得使用的OCR引擎都将花费你大量的金钱。免费和/或开源项目通常是宠物项目,是某些算法或其他算法的概念证明。不适用于真实世界的OCR应用程序。Tesseract可能是同类产品中最好的,但即使如此,其精度也远比商用发动机差

我们有一个商业OCR应用程序,我在评估引擎时一直在走这条路——我建议你咬紧牙关,接触引擎供应商并获得报价:Abbyy(最佳精度、最昂贵、较慢)、Expervision(快速、不准确、中间价)、Nuance(中间速度、准确性和价格)。这些都不是用Java编写的,所以您应该计划一些时间围绕它们的API开发JNI代码


祝你好运-这是一个大项目!

楔形文字是免费且易于使用的,它将以hocr格式输出,然后可以使用hocr2pdf工具在PDF上生成一个不可见的文本层,hocr2pdf工具是ExactImage的一部分。

您好,谢谢您的输入,您能提供有关
楔形文字
hocr
格式的更多信息吗ant似乎找到了很多关于它的信息。非常感谢。如果我想要的只是一个扫描过的pdf并将其转换成带有可搜索文本的pdf,那该怎么办?Abbyy、Expervision和bunch仍然是正确的选择吗?是的,加上大量的工作来确保原始内容得到保留。我们有一个商业应用程序可以做到这一点-我们有10年的发展,我可以向你保证,这项努力是巨大的。:D我的老板认为这是周末要做的事情