如何创建Lucene索引,其中的文档包括扫描图像和其他内容?
我的数据库将恢复存储为blob数据字段。简历可以是Microsoft word、pdf或images.jpg等。我们如何用这些不同的文件类型,特别是.jpg文件创建Lucene索引?Tika能理解扫描图像吗 从图像提取时,还可以通过TesseractOCRParser在Tesseract中链接,以便对图像内容执行OCR 查看有关图像的Apache Tika文档:如何创建Lucene索引,其中的文档包括扫描图像和其他内容?,lucene,apache-tika,Lucene,Apache Tika,我的数据库将恢复存储为blob数据字段。简历可以是Microsoft word、pdf或images.jpg等。我们如何用这些不同的文件类型,特别是.jpg文件创建Lucene索引?Tika能理解扫描图像吗 从图像提取时,还可以通过TesseractOCRParser在Tesseract中链接,以便对图像内容执行OCR 查看有关图像的Apache Tika文档: