Amazon web services aws sagemaker,用于检测图像中的文本

Amazon web services aws sagemaker,用于检测图像中的文本,amazon-web-services,amazon-sagemaker,Amazon Web Services,Amazon Sagemaker,我知道最好使用aws Rekognion进行此操作。然而,当我用我拥有的图像(有点像带标签的小容器)尝试它时,它似乎不起作用。文本拼写错误,支离破碎 我是ML和sagemaker的新手。从我所看到的,用例似乎是用于预测和图像分类的。我找不到一个训练模型来检测图像中的文本。有可能用Sagemaker来做吗?如果有人给我指出了正确的方向,我将不胜感激。不同的服务都将为光学字符识别(OCR)提供不同的抽象级别,具体取决于您最熟悉的管道部分以及您希望抽象的部分 以下是一些选项: Rekognition

我知道最好使用aws Rekognion进行此操作。然而,当我用我拥有的图像(有点像带标签的小容器)尝试它时,它似乎不起作用。文本拼写错误,支离破碎


我是ML和sagemaker的新手。从我所看到的,用例似乎是用于预测和图像分类的。我找不到一个训练模型来检测图像中的文本。有可能用Sagemaker来做吗?如果有人给我指出了正确的方向,我将不胜感激。

不同的服务都将为光学字符识别(OCR)提供不同的抽象级别,具体取决于您最熟悉的管道部分以及您希望抽象的部分

以下是一些选项:

  • Rekognition将提供具有该功能的现成OCR。然而,在目前的情况下,您似乎需要对图像进行某种预处理,以获得更好的结果。这可以通过您选择的任何方法(Lambda、EC2等)实现

  • SageMaker是一种工具,可使您轻松培训和部署自己的模型(任何类型)。SageMaker有两个主要选项:

  • “自己动手”选项:如果您希望采用标记自己的数据、收集大量培训集和培训自己的OCR模型的方式,则可以通过SageMaker培训和部署自己的模型

  • 现有的OCR算法:有许多算法都有不同的潜在的OCR权衡。一个例子是。使用此功能,您可以将预处理步骤与文本检测更紧密地结合起来

  • (预览版)是专门构建的专用OCR服务,根据图像外观和所选设置,该服务可能提供更好的性能


我个人建议在转向其他选项之前,先研究一下它是否能提高重新定位的准确性。即使它不能提高Rekognition的准确性,它对大多数其他选项仍然是有价值的

嘿,谢谢你的回复。谷歌云视觉API似乎给了我相当好的文本。我贴了另一个问题,希望你能帮我回答。你似乎对这件事很了解。