Fonts 是否有适用于';光栅字体';?

Fonts 是否有适用于';光栅字体';?,fonts,tesseract,raster,truetype,python-tesseract,Fonts,Tesseract,Raster,Truetype,Python Tesseract,我正在使用Tesseract对一些屏幕截图进行OCR。屏幕截图中的字符位于光栅字体中。但是Tesseract需要True-Type-Font文件进行培训 我可以在Windows/font文件夹中找到许多true type字体文件。我想知道是否有一种用于光栅字体的字体?“光栅字体”不是真的:OpenType(其中truetype是两种内部编码之一)是真正的字体,符合a,但光栅字体几乎是“没有单一的规范,你可以发明任何你想要的东西,只要你的程序知道如何解包你制作的东西”。有一大堆不同的方法来定义光栅

我正在使用
Tesseract
对一些屏幕截图进行OCR。屏幕截图中的字符位于光栅字体中。但是
Tesseract
需要
True-Type-Font
文件进行培训

我可以在
Windows/font
文件夹中找到许多true type字体文件。我想知道是否有一种用于光栅字体的字体?

“光栅字体”不是真的:OpenType(其中truetype是两种内部编码之一)是真正的字体,符合a,但光栅字体几乎是“没有单一的规范,你可以发明任何你想要的东西,只要你的程序知道如何解包你制作的东西”。有一大堆不同的方法来定义光栅/位图字体,它们基本上都是
bitmap image+头的形式,表示哪个字母映射到图像中的哪个x/y/w/h矩形

OCR不想使用它们,因为位图字体无法缩放:最简单的原因是“没有正式的位图字体规范”“,但即使有,如果您试图将位图字体与OCR结果匹配,则整个页面的宽度或高度与位图字体所需的宽度或高度相差1像素,可能会导致无法匹配任何文本。Bbitmap字体编码为固定字体大小(通常只有一种,有时不止一种,但仍然严格固定),因此,如果扫描的文档大小不完全正确,所有像素都不会完全重叠,从而导致荒谬的事情,如O和V匹配V和O具有相同的可靠性,因为一个微小的像素垂直移动可以使V和O重叠在相同数量的错误像素上

另一方面,OpenType字体使用矢量轮廓,并且可以缩放以与各种非常成功的算法最匹配。除非扫描的文档“太小”,否则向量变换将产生90-100%的匹配,不会出现任何问题


相反,你要做的是点击MyFont.com之类的东西,在扫描过的文档中插入一个句子,可能是两个,然后让它告诉你哪种字体与它最匹配,然后简单地将该字体用于OCR培训。超级有效

考虑消除锯齿对光栅字体的影响。谢谢。因此,光栅字体的OCR似乎是一项不可能完成的任务。但我的方案是使用OCR屏幕截图,其中充满了光栅字符。对于我的场景,有没有一些OCR解决方案?只是标准的“找到一种接近它的字体,让OCR发挥它的魔力”。它需要矢量轮廓,以使OCR任务甚至可以远程处理,即使源输入是纯位图。OK。我会试试
什么字体站点以检测其附近的字体。