使用tika库从java图像中提取文本
我需要从图像中提取文本,所以我发现很少有OCR库使用tika库从java图像中提取文本,java,ocr,apache-tika,Java,Ocr,Apache Tika,我需要从图像中提取文本,所以我发现很少有OCR库 Tess4j 这不管用,所以我搬到了阿帕奇提卡 在apacke tika中,我尝试了ImageParser和JpegParser。它提供了文件信息,但没有在我的图像文件中提供文本。对于图像处理Tessaract是最好的api,它提供了一些java方法,请尝试一次。您可以找到更多详细信息,也可以从命令行运行tika。仅在要对其执行OCR的图像上运行: java -jar ./tika-app/target/tika-app-1.13-SNAPSHO
在apacke tika中,我尝试了ImageParser和JpegParser。它提供了文件信息,但没有在我的图像文件中提供文本。对于图像处理
Tessaract
是最好的api,它提供了一些java方法,请尝试一次。您可以找到更多详细信息,也可以从命令行运行tika。仅在要对其执行OCR的图像上运行:
java -jar ./tika-app/target/tika-app-1.13-SNAPSHOT.jar -t ~/Desktop/tess.png
Tika在内部使用tesseract执行OCR。所以你应该把它安装在你的路径上。是吗?如果是,你在哪里被卡住了?若否,原因为何?当你这样做的时候会发生什么?是的,我读了tika文档。代码设置很好,但Jpeg解析器从一些图像返回文本,而不是从我必须提取的图像返回文本。我在linux上使用tessaract。它能够从图像中提取文本,但缺少一些字符,而不是将其视为特殊字符。使用中所述的字符白名单提高准确性