Image 从图像中提取字符

Image 从图像中提取字符,image,image-processing,cluster-analysis,k-means,Image,Image Processing,Cluster Analysis,K Means,有人知道从图像中提取字符的好算法吗。所有字符都是黑色的,背景是白色的。事实上,这些图像将只是一个打印文档。我正在考虑使用搜索算法,例如DFS或BFS,来对字符进行聚类,但我不确定是否有更好的方法?你能推荐一些图书馆吗?我只想将图像切割成更小的图像,每个图像代表一个字符。这种算法通常被称为OCR(光学字符识别),在每种操作系统下,您都可以找到可以做得更好或更差的现成实用程序,其中许多是免费的、商业的。实际上,有些算法用于垃圾邮件检测,用于在收到的电子邮件中动态识别图像上的单词,因此您甚至可以在sh

有人知道从图像中提取字符的好算法吗。所有字符都是黑色的,背景是白色的。事实上,这些图像将只是一个打印文档。我正在考虑使用搜索算法,例如DFS或BFS,来对字符进行聚类,但我不确定是否有更好的方法?你能推荐一些图书馆吗?我只想将图像切割成更小的图像,每个图像代表一个字符。

这种算法通常被称为OCR(光学字符识别),在每种操作系统下,您都可以找到可以做得更好或更差的现成实用程序,其中许多是免费的、商业的。实际上,有些算法用于垃圾邮件检测,用于在收到的电子邮件中动态识别图像上的单词,因此您甚至可以在shell中执行此操作,甚至不需要看到图像,更不用说成功地将图像中的文本提取到纯文本文件。

此类算法通常称为OCR(光学字符识别),在每一个操作系统下,你都会发现随时可用的实用程序,它们做得好或坏,免费的,商业的,其中很多。事实上,有些是用于垃圾邮件检测的,例如用于动态识别传入电子邮件中图像上的单词,因此您甚至可以在shell中执行此操作,而不必查看图像-更不用说成功地将图像中的文本提取到纯文本文件。

在python中,通过
scipy
包,您可以使用
scipy.ndimage.label(img)
方法。它应该标记图像中的不同字符,然后使用
scipy.ndimage.find_objects
提取这些字符。但是您需要先反转图像,使背景色为黑色而不是白色


您可能希望发布图像,以查看您想要的内容

在python中,通过
scipy
包,您可以使用
scipy.ndimage.label(img)
方法。它应该标记图像中的不同字符,然后,使用
scipy.ndimage.find_objects
提取这些字符。但您需要先反转图像,使背景色为黑色而不是白色


您可能希望发布图像,以查看您想要的内容

好的,这可能会有帮助,但最后我使用DFS搜索了字符。我也有一些启发来决定某个像素是否是角色的一部分。 另外,由于一些字符是分开的(比如我),后来我不得不决定是否合并它们。
事实上,它运行得相当好。这是很久以前做的,但决定回答我很久以前问的问题。

好的,这可能会有帮助,但最后我使用DFS搜索字符。我也有一些启发来决定某个像素是否是角色的一部分。 另外,由于一些字符是分开的(比如我),后来我不得不决定是否合并它们。
事实上,它运行得相当好。这是很久以前做的,但我决定回答我很久以前问的问题。

使用OCR应用程序,也有一些开源的,这里是…使用OCR应用程序,也有一些开源的,这里是…我已经有了一个OCR应用程序,一次可以处理一个字符,因为输入是图像,其中包含一个字符。我想写一个类来读取图像,将图像中的字符分离为较小的图像,并将它们输入ocr应用程序。我打赌你也可以找到一些ocr API。这肯定是ocr的一个解决问题,所以使用ocr应用程序使用的任何东西。。。为什么你要坚持用不同的方式来做呢?我已经有了一个OCR应用程序,它可以一次处理一个字符,因为输入的是一个包含一个字符的图像。我想写一个类来读取图像,将图像中的字符分离为较小的图像,并将它们输入ocr应用程序。我打赌你也可以找到一些ocr API。这肯定是ocr的一个解决问题,所以使用ocr应用程序使用的任何东西。。。你为什么要坚持用不同的方式来做?