Iphone 基于Tesseract OCR的汉字识别_Iphone_Ios_Ocr_Tesseract

Iphone 基于Tesseract OCR的汉字识别

iphone ios

Iphone 基于Tesseract OCR的汉字识别,iphone,ios,ocr,tesseract,Iphone,Ios,Ocr,Tesseract,我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。但是如果我使用中文文本图像并通过OCR，那么Tesseract不会向我提供中文字符，而是提供数字和英文字符。但是我需要显示在我使用的图像中的汉字我怎样才能做到这一点？有什么方法可以获得汉字而不是任何其他字符吗？您需要下载经过中文培训的数据（它将是一个类似于chi\u sim.traineddata的文件），并将其添加到您的tessdata文件夹中下载文件像这样使用 Tesseract* tesseract= [[

我一直在使用Tesseract 3.0.2 OCR SDK进行图像文本提取。但是如果我使用中文文本图像并通过OCR，那么Tesseract不会向我提供中文字符，而是提供数字和英文字符。但是我需要显示在我使用的图像中的汉字

我怎样才能做到这一点？有什么方法可以获得汉字而不是任何其他字符吗？

您需要下载经过中文培训的数据（它将是一个类似于chi\u sim.traineddata的文件），并将其添加到您的tessdata文件夹中

下载文件

像这样使用

Tesseract* tesseract= [[Tesseract alloc] initWithDataPath:@"tessdata" language:@"chi_sim"];

如果您有任何问题，可以从下载我的tessaract实验（有中文支持）

我已经测试过这个……希望你会发现这个有用。

Alok，我试过你的示例，它在我试过的大约一半简体中文字符上都很有效。对于其余部分，它可能将一个复合字符识别为几个不同的字符，每个字符代表复合字符中的一个组件，或者完全错误。您知道有什么方法可以提高识别的准确性吗？新的经过培训的数据链接是从github.com/UB-Mannheim/tesseract/wiki下载安装程序，以便有一个tessdata文件夹。（除pip外，安装pytesseract）