通过SOLR使用Tesseract支持OCR_Solr_Ocr_Tesseract_Apache Tika

通过SOLR使用Tesseract支持OCR

solr

通过SOLR使用Tesseract支持OCR,solr,ocr,tesseract,apache-tika,Solr,Ocr,Tesseract,Apache Tika,你好，我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本，但尚未成功 SOLR从结构化文本文档.xls、.pdf、doc等中提取精细文本，但不想调用Tesseract模块进行文本识别我正在使用 SOLR v.7.4.0 Tesseract版本4.1.1 TIKA 1.18版本内置于SOLR中，无独立版本 Tesseract安装在以下目录中： /usr/share/tesseract/4/tessdata/ echo $TESSDATA_PREFIX - > /

你好，我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本，但尚未成功

SOLR从结构化文本文档.xls、.pdf、doc等中提取精细文本，但不想调用Tesseract模块进行文本识别

我正在使用

SOLR v.7.4.0 Tesseract版本4.1.1 TIKA 1.18版本内置于SOLR中，无独立版本 Tesseract安装在以下目录中：

/usr/share/tesseract/4/tessdata/
echo $TESSDATA_PREFIX - > /usr/share/tesseract/4/tessdata/
tesseract -v
tesseract 4.1.1-rc2-20-g01fb
leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0

命令tesseract test.jpg test.txt使用test.jpg中的OCRD内容生成准确的txt文件

修改了solrconfig.xml、TesseractOCRConfig.properties和ParseContent.xml文件以指向Tesseract安装

有人做过这样的配置吗

你好，我们解决了这个问题。以下是使用和更改的内容：在我们的安装中，我们使用了Tesseract版本3.05、Tika版本1.17和SOLR版本7.4。实际上，我们有TIKA版本1.17，而不是18。 1.在parseContext.xml文件中从HOCR更改为TXT>>> 2.必须以root用户身份启动SOLR。版本4.1.1与TIKA 1.17不兼容，因此我们将SOLR升级到版本7.7，TIKA版本1.19，并尝试安装Tesseract 4.1.1