快速屏幕字体OCR技术还是API？_Api_Fonts_Ocr

快速屏幕字体OCR技术还是API？

api fonts

快速屏幕字体OCR技术还是API？,api,fonts,ocr,Api,Fonts,Ocr,我想知道是否有任何技术/API可用于快速屏幕字体OCR 以下是理所当然的： OCR文本应来自屏幕截图，并应使用屏幕字体呈现到OCR的文本可能是或不是抗锯齿的消除混叠可以使用RGB抽取，也可以不使用RGB抽取（也称为亚像素，也称为ClearType等）屏幕截图可以是RGB或RBG顺序基线很容易找到（只需查看所有屏幕字体：基线显示非常清晰，并且很容易从算法上找到）允许出现很多错误（字符识别根本不需要100%正确）字体基本上是预先知道的，但字体的呈现方式并不确切（大小未知、颜色未知、抗锯

我想知道是否有任何技术/API可用于快速屏幕字体OCR

以下是理所当然的：

OCR文本应来自屏幕截图，并应使用屏幕字体呈现
到OCR的文本可能是或不是抗锯齿的
消除混叠可以使用RGB抽取，也可以不使用RGB抽取（也称为亚像素，也称为ClearType等）
屏幕截图可以是RGB或RBG顺序
基线很容易找到（只需查看所有屏幕字体：基线显示非常清晰，并且很容易从算法上找到）
允许出现很多错误（字符识别根本不需要100%正确）
字体基本上是预先知道的，但字体的呈现方式并不确切（大小未知、颜色未知、抗锯齿类型未知）。基本上，我们知道的是，这将是非常常见的字体

因此，我认为它远没有“真正的”OCR那么复杂：找到基线并“切割”每个字符非常容易（我已经做过了）

有人知道允许实现这一壮举的特定技术、论文甚至API吗

注意：这个问题是而不是关于屏幕刮削的问题。这个问题不是关于破解CAPTCHA的。这个问题是而不是关于常规OCR（如扫描文本的OCR）。这个问题与GUI自动化无关（尽管有些人可能会这样使用）。
我对不变矩（例如Hu矩）有很好的经验，但它们也可能很少 onvariant用于您的目的，因为您有预定义的方向）用于特征提取，与聚类分析（我用马氏距离得到了非常好的结果）。
如果您对纯java解决方案感兴趣，以下是我们的SF项目：

这也适用于android手机

（欢迎帮助）
您可以尝试实现一个LAMSTAR，如Daniel Graupe的《人工神经网络原理》（1997）第13章所述
它基本上包括：

将您的“输入”划分为“子字”（他举例将图像按像素序列进行细分，每列一个子字，每行一个子字）

每个子词都被送入一个动态KSOM（Kohonen自组织映射），该映射将规范化子词按不同的类别进行分类

每个KSOM都是赢家通吃的分类器，其一个输出为1，其他所有输出为0

然后，输出与“到输出层的链接权重”以及非线性激活函数（如逻辑函数）线性组合，输出神经元的激发为您提供代表识别字符的位序列

LAMSTAR的优点是所有东西都是可追踪的：

你可以通过考虑你提供给它的输入来知道NN看到了什么

通过观察KSOMs的分类结果，您可以知道NN认为它看到了什么

通过考虑特定K-SOM的权重向量，可以知道NN希望看到什么

通过比较链接权重，可以了解NN真正认为重要的内容（以及它忽略图像的哪些部分）

请查看此问题的任何答案是否适用于您的情况。尺度不变性来自不变矩，马氏距离与之无关，它来自clustaer分析域。SF项目被me contais引用为everzthing的实现和android演示。