使用tika库从java图像中提取文本_Java_Ocr_Apache Tika

使用tika库从java图像中提取文本

java

使用tika库从java图像中提取文本,java,ocr,apache-tika,Java,Ocr,Apache Tika,我需要从图像中提取文本，所以我发现很少有OCR库 Tess4j 这不管用，所以我搬到了阿帕奇提卡在apacke tika中，我尝试了ImageParser和JpegParser。它提供了文件信息，但没有在我的图像文件中提供文本。对于图像处理Tessaract是最好的api，它提供了一些java方法，请尝试一次。您可以找到更多详细信息，也可以从命令行运行tika。仅在要对其执行OCR的图像上运行： java -jar ./tika-app/target/tika-app-1.13-SNAPSHO

我需要从图像中提取文本，所以我发现很少有OCR库

Tess4j

这不管用，所以我搬到了阿帕奇提卡

在apacke tika中，我尝试了ImageParser和JpegParser。它提供了文件信息，但没有在我的图像文件中提供文本。

对于图像处理

Tessaract

是最好的api，它提供了一些java方法，请尝试一次。您可以找到更多详细信息，也可以从命令行运行tika。仅在要对其执行OCR的图像上运行：

java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png

Tika在内部使用tesseract执行OCR。所以你应该把它安装在你的路径上。

是吗？如果是，你在哪里被卡住了？若否，原因为何？当你这样做的时候会发生什么？是的，我读了tika文档。代码设置很好，但Jpeg解析器从一些图像返回文本，而不是从我必须提取的图像返回文本。我在linux上使用tessaract。它能够从图像中提取文本，但缺少一些字符，而不是将其视为特殊字符。使用中所述的字符白名单提高准确性