Google cloud platform Google Vision API无法识别单个数字_Google Cloud Platform_Ocr_Google Cloud Vision_Text Recognition

Google cloud platform Google Vision API无法识别单个数字

google-cloud-platform

Google cloud platform Google Vision API无法识别单个数字,google-cloud-platform,ocr,google-cloud-vision,text-recognition,Google Cloud Platform,Ocr,Google Cloud Vision,Text Recognition,我有一个项目，利用谷歌视觉API文档文本检测从文档图像中提取文本通常API在识别单个数字时会遇到问题，如下图所示：我认为这个问题可能与某种去噪算法有关，这种算法将孤立的单个数字识别为噪声。在这些情况下，有没有办法改善视力反应？（例如，管理噪声阈值或其他参数）在其他情况下，视觉会将数字与字母混淆：但是如果我指定参数languageHights='en'或'mt'，ocr将忽略这些数字。有没有办法强制识别数字或拉丁字符？不幸的是，我认为Vision API针对频谱的两端进行了优化——一端

我有一个项目，利用谷歌视觉API文档文本检测从文档图像中提取文本

通常API在识别单个数字时会遇到问题，如下图所示：

我认为这个问题可能与某种去噪算法有关，这种算法将孤立的单个数字识别为噪声。在这些情况下，有没有办法改善视力反应？（例如，管理噪声阈值或其他参数）

在其他情况下，视觉会将数字与字母混淆：

但是如果我指定参数languageHights='en'或'mt'，ocr将忽略这些数字。有没有办法强制识别数字或拉丁字符？

不幸的是，我认为Vision API针对频谱的两端进行了优化——一端是密集文本（

DOCUMENT\u text\u DETECTION

），另一端是任意文本位（

text\u DETECTION

）。正如您在评论中所指出的，常规的

文本检测

对这些散乱的单个数字效果更好，而

文档文本检测

总体效果更好

据我所知，目前还没有计划尝试以单一方式涵盖这两个方面，但这可能会在未来有所改善

我认为还有其他一些要求对您希望检测的内容进行更多微调和暗示（例如，和），但这似乎还不可用。也许将来您可以提供更多关于图像中文本格式的提示（例如，电话号码、单个数字等）。

我不知道确切原因，但块大小似乎也有问题-它们太大-因此可能会遗漏/错误解释某些数字。寻找控制段大小的选项，如果有，您可以尝试使用

TEXT\u DETECTION

。如中所述，

文档文本检测

针对密集文本进行了优化。您使用的图像似乎不是这样。谢谢@enlelin不幸的是，我需要从书面文档中提取文本，这些文档通常具有不同文本密度的区域。在我的例子中，DOCUMENT_TEXT_检测的效果明显更好，但在识别孤立字符时遇到问题。你找到解决方法了吗？我也遇到了这个问题。有人已经修好了吗？谢谢