如何使用java从扫描的pdf文件中提取文本_Java_Itext_Tesseract_Pdfbox_Pdftotext

如何使用java从扫描的pdf文件中提取文本

java itext

如何使用java从扫描的pdf文件中提取文本,java,itext,tesseract,pdfbox,pdftotext,Java,Itext,Tesseract,Pdfbox,Pdftotext,我已经手动扫描了一些硬拷贝文件并存储到pdf文件（软拷贝）。现在这些pdf文件是我的输入，所以我需要从这些pdf文件中提取文本。我尝试了tika、pdfbox、itext、tess4j，但我的文件（从互联网下载的其他pdf文件中获取精确文本）的准确率不到50%（大部分是垃圾数据），你能为我建议解决此问题的方法吗谢谢尝试提高扫描质量，将OCR的扫描速度保持在300 dpi以上，消除噪音。至于使用iText，您必须使用pdf版本，而不是扫描的pdf，它不会提供任何数据。文件应该是pdf。您提到的大

我已经手动扫描了一些硬拷贝文件并存储到pdf文件（软拷贝）。现在这些pdf文件是我的输入，所以我需要从这些pdf文件中提取文本。我尝试了tika、pdfbox、itext、tess4j，但我的文件（从互联网下载的其他pdf文件中获取精确文本）的准确率不到50%（大部分是垃圾数据），你能为我建议解决此问题的方法吗

谢谢

尝试提高扫描质量，将OCR的扫描速度保持在300 dpi以上，消除噪音。至于使用iText，您必须使用pdf版本，而不是扫描的pdf，它不会提供任何数据。文件应该是pdf。您提到的大多数库只提取pdf中已经存在的文本作为文本内容，而不仅仅是图像。因此，它们取决于您以前的ocr'ing。那么，您是如何将ocr应用于PDF的呢？确实，只有当文件基于文档且包含文本时，才可以直接从PDF中提取文本。如果是仅包含图像的扫描文档，则转换为文本需要OCR。自从3年前发布以来，新的选项已经出现。现在有一个很好的Java OCR引擎可以在Windows、Android和Linux下工作，这是免责声明的一部分：我是这家公司的员工。