通过SOLR使用Tesseract支持OCR
你好, 我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本,但尚未成功 SOLR从结构化文本文档.xls、.pdf、doc等中提取精细文本,但不想调用Tesseract模块进行文本识别 我正在使用 SOLR v.7.4.0 Tesseract版本4.1.1 TIKA 1.18版本内置于SOLR中,无独立版本 Tesseract安装在以下目录中:通过SOLR使用Tesseract支持OCR,solr,ocr,tesseract,apache-tika,Solr,Ocr,Tesseract,Apache Tika,你好, 我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本,但尚未成功 SOLR从结构化文本文档.xls、.pdf、doc等中提取精细文本,但不想调用Tesseract模块进行文本识别 我正在使用 SOLR v.7.4.0 Tesseract版本4.1.1 TIKA 1.18版本内置于SOLR中,无独立版本 Tesseract安装在以下目录中: /usr/share/tesseract/4/tessdata/ echo $TESSDATA_PREFIX - > /
/usr/share/tesseract/4/tessdata/
echo $TESSDATA_PREFIX - > /usr/share/tesseract/4/tessdata/
tesseract -v
tesseract 4.1.1-rc2-20-g01fb
leptonica-1.76.0
libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
命令tesseract test.jpg test.txt使用test.jpg中的OCRD内容生成准确的txt文件
修改了solrconfig.xml、TesseractOCRConfig.properties和ParseContent.xml文件以指向Tesseract安装
有人做过这样的配置吗 你好,
我们解决了这个问题。以下是使用和更改的内容:
在我们的安装中,我们使用了Tesseract版本3.05、Tika版本1.17和SOLR版本7.4。实际上,我们有TIKA版本1.17,而不是18。
1.在parseContext.xml文件中从HOCR更改为TXT>>>
2.必须以root用户身份启动SOLR。
版本4.1.1与TIKA 1.17不兼容,因此我们将SOLR升级到版本7.7,TIKA版本1.19,并尝试安装Tesseract 4.1.1