快速屏幕字体OCR技术还是API?

快速屏幕字体OCR技术还是API?,api,fonts,ocr,Api,Fonts,Ocr,我想知道是否有任何技术/API可用于快速屏幕字体OCR 以下是理所当然的: OCR文本应来自屏幕截图,并应使用屏幕字体呈现 到OCR的文本可能是或不是抗锯齿的 消除混叠可以使用RGB抽取,也可以不使用RGB抽取(也称为亚像素,也称为ClearType等) 屏幕截图可以是RGB或RBG顺序 基线很容易找到(只需查看所有屏幕字体:基线显示非常清晰,并且很容易从算法上找到) 允许出现很多错误(字符识别根本不需要100%正确) 字体基本上是预先知道的,但字体的呈现方式并不确切(大小未知、颜色未知、抗锯

我想知道是否有任何技术/API可用于快速屏幕字体OCR

以下是理所当然的:

  • OCR文本应来自屏幕截图,并应使用屏幕字体呈现
  • 到OCR的文本可能是或不是抗锯齿的
  • 消除混叠可以使用RGB抽取,也可以不使用RGB抽取(也称为亚像素,也称为ClearType等)
  • 屏幕截图可以是RGB或RBG顺序
  • 基线很容易找到(只需查看所有屏幕字体:基线显示非常清晰,并且很容易从算法上找到)
  • 允许出现很多错误(字符识别根本不需要100%正确)
  • 字体基本上是预先知道的,但字体的呈现方式并不确切(大小未知、颜色未知、抗锯齿类型未知)。基本上,我们知道的是,这将是非常常见的字体
因此,我认为它远没有“真正的”OCR那么复杂:找到基线并“切割”每个字符非常容易(我已经做过了)

有人知道允许实现这一壮举的特定技术、论文甚至API吗


注意:这个问题是而不是关于屏幕刮削的问题。这个问题不是关于破解CAPTCHA的。这个问题是而不是关于常规OCR(如扫描文本的OCR)。这个问题与GUI自动化无关(尽管有些人可能会这样使用)。

我对不变矩(例如Hu矩)有很好的经验,但它们也可能很少 onvariant用于您的目的,因为您有预定义的方向)用于特征提取,与 聚类分析(我用马氏距离得到了非常好的结果)。
如果您对纯java解决方案感兴趣,以下是我们的SF项目:

这也适用于android手机


(欢迎帮助)

您可以尝试实现一个LAMSTAR,如Daniel Graupe的《人工神经网络原理》(1997)第13章所述

它基本上包括:

  • 将您的“输入”划分为“子字”(他举例将图像按像素序列进行细分,每列一个子字,每行一个子字)
  • 每个子词都被送入一个动态KSOM(Kohonen自组织映射),该映射将规范化子词按不同的类别进行分类
  • 每个KSOM都是赢家通吃的分类器,其一个输出为1,其他所有输出为0
  • 然后,输出与“到输出层的链接权重”以及非线性激活函数(如逻辑函数)线性组合,输出神经元的激发为您提供代表识别字符的位序列
LAMSTAR的优点是所有东西都是可追踪的:

  • 你可以通过考虑你提供给它的输入来知道NN看到了什么
  • 通过观察KSOMs的分类结果,您可以知道NN认为它看到了什么
  • 通过考虑特定K-SOM的权重向量,可以知道NN希望看到什么
  • 通过比较链接权重,可以了解NN真正认为重要的内容(以及它忽略图像的哪些部分)

请查看此问题的任何答案是否适用于您的情况。尺度不变性来自不变矩,马氏距离与之无关,它来自clustaer分析域。SF项目被me contais引用为everzthing的实现和android演示。