Python 有没有办法从扫描的图像中检测多种语言?

Python 有没有办法从扫描的图像中检测多种语言?,python,ocr,tesseract,Python,Ocr,Tesseract,我正在尝试将扫描的图像从tesseract ocr转换为文本,它工作得很好,只是我的图像中有两种语言,tesseract无法同时检测到这两种语言。我可以将所有图像转换为英语(阿拉伯语显示为垃圾值,而不是罗马阿拉伯语),反之亦然,如果我将其转换为阿拉伯语(也就是说,我得到的所有文本都是阿拉伯语,英语文本为垃圾) 我曾尝试使用langDetect检测导出的文本,但由于字符和ASCII是英文字母,我无法检测它 我正在分享一个例子,若有人能帮助我更好地解决这个问题,那个就太好了 只要用这个更新你的代码就

我正在尝试将扫描的图像从tesseract ocr转换为文本,它工作得很好,只是我的图像中有两种语言,tesseract无法同时检测到这两种语言。我可以将所有图像转换为英语(阿拉伯语显示为垃圾值,而不是罗马阿拉伯语),反之亦然,如果我将其转换为阿拉伯语(也就是说,我得到的所有文本都是阿拉伯语,英语文本为垃圾)

我曾尝试使用langDetect检测导出的文本,但由于字符和ASCII是英文字母,我无法检测它


我正在分享一个例子,若有人能帮助我更好地解决这个问题,那个就太好了

只要用这个更新你的代码就可以了

lang = 'eng+ara'
ara代表
ara.traineddata

还有一件事:阿拉伯语训练数据可能不在tesseract中,因此从git下载
ara.traineddata
,并将其粘贴到tesseract ocr的
TesserData
文件夹中


我还为您提供了此traineddata的链接:。

只需使用此链接更新您的代码即可

lang = 'eng+ara'
ara代表
ara.traineddata

还有一件事:阿拉伯语训练数据可能不在tesseract中,因此从git下载
ara.traineddata
,并将其粘贴到tesseract ocr的
TesserData
文件夹中

我还为您提供了此培训数据的链接:。

的可能副本