Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/solr/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
通过SOLR使用Tesseract支持OCR_Solr_Ocr_Tesseract_Apache Tika - Fatal编程技术网

通过SOLR使用Tesseract支持OCR

通过SOLR使用Tesseract支持OCR,solr,ocr,tesseract,apache-tika,Solr,Ocr,Tesseract,Apache Tika,你好, 我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本,但尚未成功 SOLR从结构化文本文档.xls、.pdf、doc等中提取精细文本,但不想调用Tesseract模块进行文本识别 我正在使用 SOLR v.7.4.0 Tesseract版本4.1.1 TIKA 1.18版本内置于SOLR中,无独立版本 Tesseract安装在以下目录中: /usr/share/tesseract/4/tessdata/ echo $TESSDATA_PREFIX - > /

你好, 我正在尝试将SOLR配置为使用Tesseract OCR引擎从图像中提取文本,但尚未成功

SOLR从结构化文本文档.xls、.pdf、doc等中提取精细文本,但不想调用Tesseract模块进行文本识别

我正在使用

SOLR v.7.4.0 Tesseract版本4.1.1 TIKA 1.18版本内置于SOLR中,无独立版本 Tesseract安装在以下目录中:

/usr/share/tesseract/4/tessdata/
echo $TESSDATA_PREFIX - > /usr/share/tesseract/4/tessdata/
tesseract -v
tesseract 4.1.1-rc2-20-g01fb
leptonica-1.76.0
  libjpeg 6b (libjpeg-turbo 1.2.90) : libpng 1.5.13 : libtiff 4.0.3 : zlib 1.2.7 : libwebp 0.3.0
命令tesseract test.jpg test.txt使用test.jpg中的OCRD内容生成准确的txt文件

修改了solrconfig.xml、TesseractOCRConfig.properties和ParseContent.xml文件以指向Tesseract安装

有人做过这样的配置吗

你好, 我们解决了这个问题。以下是使用和更改的内容: 在我们的安装中,我们使用了Tesseract版本3.05、Tika版本1.17和SOLR版本7.4。实际上,我们有TIKA版本1.17,而不是18。 1.在parseContext.xml文件中从HOCR更改为TXT>>> 2.必须以root用户身份启动SOLR。 版本4.1.1与TIKA 1.17不兼容,因此我们将SOLR升级到版本7.7,TIKA版本1.19,并尝试安装Tesseract 4.1.1