Google cloud platform Google Vision API无法识别单个数字

Google cloud platform Google Vision API无法识别单个数字,google-cloud-platform,ocr,google-cloud-vision,text-recognition,Google Cloud Platform,Ocr,Google Cloud Vision,Text Recognition,我有一个项目,利用谷歌视觉API文档文本检测从文档图像中提取文本 通常API在识别单个数字时会遇到问题,如下图所示: 我认为这个问题可能与某种去噪算法有关,这种算法将孤立的单个数字识别为噪声。在这些情况下,有没有办法改善视力反应?(例如,管理噪声阈值或其他参数) 在其他情况下,视觉会将数字与字母混淆: 但是如果我指定参数languageHights='en'或'mt',ocr将忽略这些数字。有没有办法强制识别数字或拉丁字符?不幸的是,我认为Vision API针对频谱的两端进行了优化——一端

我有一个项目,利用谷歌视觉API文档文本检测从文档图像中提取文本

通常API在识别单个数字时会遇到问题,如下图所示:

我认为这个问题可能与某种去噪算法有关,这种算法将孤立的单个数字识别为噪声。在这些情况下,有没有办法改善视力反应?(例如,管理噪声阈值或其他参数)

在其他情况下,视觉会将数字与字母混淆:


但是如果我指定参数languageHights='en'或'mt',ocr将忽略这些数字。有没有办法强制识别数字或拉丁字符?

不幸的是,我认为Vision API针对频谱的两端进行了优化——一端是密集文本(
DOCUMENT\u text\u DETECTION
),另一端是任意文本位(
text\u DETECTION
)。正如您在评论中所指出的,常规的
文本检测
对这些散乱的单个数字效果更好,而
文档文本检测
总体效果更好

据我所知,目前还没有计划尝试以单一方式涵盖这两个方面,但这可能会在未来有所改善


我认为还有其他一些要求对您希望检测的内容进行更多微调和暗示(例如,和),但这似乎还不可用。也许将来您可以提供更多关于图像中文本格式的提示(例如,电话号码、单个数字等)。

我不知道确切原因,但块大小似乎也有问题-它们太大-因此可能会遗漏/错误解释某些数字。寻找控制段大小的选项,如果有,您可以尝试使用
TEXT\u DETECTION
。如中所述,
文档文本检测
针对密集文本进行了优化。您使用的图像似乎不是这样。谢谢@enlelin不幸的是,我需要从书面文档中提取文本,这些文档通常具有不同文本密度的区域。在我的例子中,DOCUMENT_TEXT_检测的效果明显更好,但在识别孤立字符时遇到问题。你找到解决方法了吗?我也遇到了这个问题。有人已经修好了吗?谢谢