Python 有没有办法从扫描的图像中检测多种语言？_Python_Ocr_Tesseract

Python 有没有办法从扫描的图像中检测多种语言？

python

Python 有没有办法从扫描的图像中检测多种语言？,python,ocr,tesseract,Python,Ocr,Tesseract,我正在尝试将扫描的图像从tesseract ocr转换为文本，它工作得很好，只是我的图像中有两种语言，tesseract无法同时检测到这两种语言。我可以将所有图像转换为英语（阿拉伯语显示为垃圾值，而不是罗马阿拉伯语），反之亦然，如果我将其转换为阿拉伯语（也就是说，我得到的所有文本都是阿拉伯语，英语文本为垃圾）我曾尝试使用langDetect检测导出的文本，但由于字符和ASCII是英文字母，我无法检测它我正在分享一个例子，若有人能帮助我更好地解决这个问题，那个就太好了只要用这个更新你的代码就

我正在尝试将扫描的图像从tesseract ocr转换为文本，它工作得很好，只是我的图像中有两种语言，tesseract无法同时检测到这两种语言。我可以将所有图像转换为英语（阿拉伯语显示为垃圾值，而不是罗马阿拉伯语），反之亦然，如果我将其转换为阿拉伯语（也就是说，我得到的所有文本都是阿拉伯语，英语文本为垃圾）

我曾尝试使用langDetect检测导出的文本，但由于字符和ASCII是英文字母，我无法检测它

我正在分享一个例子，若有人能帮助我更好地解决这个问题，那个就太好了

只要用这个更新你的代码就可以了

lang = 'eng+ara'

ara代表

ara.traineddata

还有一件事：阿拉伯语训练数据可能不在tesseract中，因此从git下载

ara.traineddata

，并将其粘贴到tesseract ocr的

TesserData

文件夹中

我还为您提供了此traineddata的链接：。

只需使用此链接更新您的代码即可

lang = 'eng+ara'

ara代表

ara.traineddata

还有一件事：阿拉伯语训练数据可能不在tesseract中，因此从git下载

ara.traineddata

，并将其粘贴到tesseract ocr的

TesserData

文件夹中

我还为您提供了此培训数据的链接：。

的可能副本