如何使用java从扫描的pdf文件中提取文本

如何使用java从扫描的pdf文件中提取文本,java,itext,tesseract,pdfbox,pdftotext,Java,Itext,Tesseract,Pdfbox,Pdftotext,我已经手动扫描了一些硬拷贝文件并存储到pdf文件(软拷贝)。现在这些pdf文件是我的输入,所以我需要从这些pdf文件中提取文本。我尝试了tika、pdfbox、itext、tess4j,但我的文件(从互联网下载的其他pdf文件中获取精确文本)的准确率不到50%(大部分是垃圾数据),你能为我建议解决此问题的方法吗 谢谢尝试提高扫描质量,将OCR的扫描速度保持在300 dpi以上,消除噪音。至于使用iText,您必须使用pdf版本,而不是扫描的pdf,它不会提供任何数据。文件应该是pdf。您提到的大

我已经手动扫描了一些硬拷贝文件并存储到pdf文件(软拷贝)。现在这些pdf文件是我的输入,所以我需要从这些pdf文件中提取文本。我尝试了tika、pdfbox、itext、tess4j,但我的文件(从互联网下载的其他pdf文件中获取精确文本)的准确率不到50%(大部分是垃圾数据),你能为我建议解决此问题的方法吗


谢谢

尝试提高扫描质量,将OCR的扫描速度保持在300 dpi以上,消除噪音。至于使用iText,您必须使用pdf版本,而不是扫描的pdf,它不会提供任何数据。文件应该是pdf。您提到的大多数库只提取pdf中已经存在的文本作为文本内容,而不仅仅是图像。因此,它们取决于您以前的ocr'ing。那么,您是如何将ocr应用于PDF的呢?确实,只有当文件基于文档且包含文本时,才可以直接从PDF中提取文本。如果是仅包含图像的扫描文档,则转换为文本需要OCR。自从3年前发布以来,新的选项已经出现。现在有一个很好的Java OCR引擎可以在Windows、Android和Linux下工作,这是免责声明的一部分:我是这家公司的员工。