Python 用pytesseract检测孟加拉语字符

Python 用pytesseract检测孟加拉语字符,python,python-tesseract,Python,Python Tesseract,我试图使用python从图像中检测孟加拉语字符,所以我决定使用pytesseract。为此,我使用了以下代码: import pytesseract from PIL import Image, ImageEnhance, ImageFilter im = Image.open("input.png") # the second one im = im.filter(ImageFilter.MedianFilter()) enhancer = ImageEnhance.Contrast(im)

我试图使用python从图像中检测孟加拉语字符,所以我决定使用pytesseract。为此,我使用了以下代码:

import pytesseract
from PIL import Image, ImageEnhance, ImageFilter

im = Image.open("input.png") # the second one
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save('temp2.png')
pytesseract.pytesseract.tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract'
text = pytesseract.image_to_string(Image.open('temp2.png'),lang="ben")
print text
问题是,如果我给一个英文字符的图像是检测。但当我写
lang=“ben”
并从孟加拉文字的图像中检测时,我的代码会无限期地运行,或者像永远一样

p.S:我已将孟加拉语列车数据下载到tessdata文件夹,我正在尝试在PyCharm中运行它

有人能帮我解决这个问题吗

我在Windows中添加了
Bangla(印度)
语言。将
ben.traineddata
下载到
TESSDATA_PREFIX
,相当于我的电脑中的
C:\Program Files\Tesseract 4.0.0\TESSDATA
。然后运行

>tesseract-l ben bangla.jpg bangla_out

在命令提示符下,并在2秒内获得以下结果。结果看起来不错,即使我不懂语言

您是否尝试在命令提示符下运行tesseract以验证它是否适用于
-l ben

编辑:

用于Spyder,类似于PyCharm,用于测试水蟒 信息技术修改代码以调用Tesseract,如下所示

pytesseract.pytesseract.tesseract_cmd = "C:/Program Files/Tesseract 4.0.0/tesseract.exe"
Spyder中的测试代码:

import pytesseract
from PIL import Image, ImageEnhance, ImageFilter
import os

im = Image.open("bangla.jpg") # the second one
im = im.filter(ImageFilter.MedianFilter())
enhancer = ImageEnhance.Contrast(im)
im = enhancer.enhance(2)
im = im.convert('1')
im.save("bangla_pp.jpg")

pytesseract.pytesseract.tesseract_cmd = "C:/Program Files/Tesseract 4.0.0/tesseract.exe"
text = pytesseract.image_to_string(Image.open("bangla_pp.jpg"),lang="ben")
print text
它在处理后的图像上工作并产生以下结果。显然,处理后图像的OCR结果不如原始图像好

处理后的孟加拉语pp.jpg的结果:

   প্রত্যাবর্তনকারীরা
   তাঁদের দেশে গিয়ে

   -~~-<~~~~--

   প্রত্যাবর্তন-পরবর্তী
   আর্থিক সহায়তা
    = পাবেন তার
输出:

প্রত্যাবর্তনকারীরা
তাঁদের দেশে গিয়ে

প্রত্যাবর্তন-পরবর্তী
আর্থিক সহায়তা
পাবেন তার

我已经从这里在windows中安装了一些字体


在那之后,它在Pycharm中运行得非常好。

我已经在命令提示符下尝试过了,效果很好。但是上面的代码是用pycharm编写的。在pycharm中,它的运行时间是无限的。@请参见上面的编辑。
প্রত্যাবর্তনকারীরা
তাঁদের দেশে গিয়ে

প্রত্যাবর্তন-পরবর্তী
আর্থিক সহায়তা
পাবেন তার