Ubuntu 我无法将语言数据添加到tesseract 目的

Ubuntu 我无法将语言数据添加到tesseract 目的,ubuntu,ocr,tesseract,windows-subsystem-for-linux,Ubuntu,Ocr,Tesseract,Windows Subsystem For Linux,我想用tesseract做中文ocr。 如果我想使用中文ocr,我需要添加培训数据。 然后,我认为有两种方法可以通过使用命令来添加traineddata sudo-apt-install-tesseract-ocr-chi-sim 或 从 通过sudo-apt-install的安装方法,正确添加了中文数据,成功完成了ocr。 然而,当我尝试后一种方法时,即使我尝试了很多次也没有效果 我想尝试后一种方法的原因是,我认为后一种方法可能比sudo apt install安装的数据具有更高的ocr准确

我想用tesseract做中文ocr。 如果我想使用中文ocr,我需要添加培训数据。 然后,我认为有两种方法可以通过使用命令来添加traineddata
sudo-apt-install-tesseract-ocr-chi-sim
或 从

通过sudo-apt-install的安装方法,正确添加了中文数据,成功完成了ocr。 然而,当我尝试后一种方法时,即使我尝试了很多次也没有效果

我想尝试后一种方法的原因是,我认为后一种方法可能比sudo apt install安装的数据具有更高的ocr准确性,我真的想尝试一下。 你知道我为什么不能做ocr吗


错误按摩 当我以后一种方式添加数据时,我得到了以下错误

> $ tesseract 0.jpeg output -l chi_sim Error opening data file
> /usr/share/tesseract-ocr/4.00/tessdata/chi_sim.traineddata Please make
> sure the TESSDATA_PREFIX environment variable is set to your
> "tessdata" directory. Failed loading language 'chi_sim' Tesseract
> couldn't load any languages! Could not initialize tesseract.

我所做的 在这两种情况下,tesseract的traineddata如下所示

$ tesseract --list-langs
List of available languages (5):
chi_sim
chi_tra
eng
jpn
osd
tesseract 0.jpeg output -l chi_sim --tessdata-dir /usr/share/tesse
ract-ocr/4.00/tessdata
traineddata包含在/usr/share/tesseract ocr/4.00/tessdata/中,因此数据的存放位置没有错误

/usr/share/tesseract-ocr/4.00/tessdata$ ls
chi_sim.traineddata  configs          jpn.traineddata    osd.traineddata  tessconfigs
chi_tra.traineddata  eng.traineddata pdf.ttf
这次出现的错误是由于TESSDATA_前缀路径引起的,因此我尝试通过以下两种方式通过路径执行它,但这里也出现了相同的错误

首先,我在~/.bashrc或~/.profile中添加了以下文本

export TESSDATA_PREFIX=/usr/share/tesseract-ocr/4.00/tessdata/
第二,我执行ocr如下

$ tesseract --list-langs
List of available languages (5):
chi_sim
chi_tra
eng
jpn
osd
tesseract 0.jpeg output -l chi_sim --tessdata-dir /usr/share/tesse
ract-ocr/4.00/tessdata

工具版本 之后,我将tesseract的版本更改为tesseract 5.0.0-alpha并尝试了它,但结果完全相同


从错误消息中,我认为这是TESSDATA_前缀路径的问题。添加路径的方式是否有错误?或者,还有其他原因吗?

您是否已与您的用户验证您对该文件的权限(即:
chmod
)?我很抱歉未能及时回复您的建议。非常感谢你的建议。正如您所说,我还没有验证对文件的权限。我将尝试验证它们。多亏了你的建议,我才知道我不能使用这些文件的原因。我感谢你的帮助!