Google cloud platform 语音到文本和视频智能语音转录是如何相关的?

Google cloud platform 语音到文本和视频智能语音转录是如何相关的?,google-cloud-platform,speech-to-text,google-speech-to-text-api,video-intelligence-api,Google Cloud Platform,Speech To Text,Google Speech To Text Api,Video Intelligence Api,我的目标是使用语音到文本模型处理几个视频 令人困惑的是,谷歌有两款产品似乎在做同样的事情 这些产品之间的主要区别是什么 谷歌云语音到文本: 语音到文本有一个“增强视频”模型来解释音频 谷歌视频智能: VI可以选择请求语音转录功能 两者之间的主要区别在于所使用的输入。语音到文本API仅接受音频输入,而视频智能则接受视频输入 正如您的问题中提到的“语音到文本有一个增强视频模型”,这意味着它有一个用于转录源自视频文件的音频的模型。这意味着原始文件是在视频中,然后转换为音频。如图所示,视频在

我的目标是使用语音到文本模型处理几个视频

令人困惑的是,谷歌有两款产品似乎在做同样的事情

这些产品之间的主要区别是什么

  • 谷歌云语音到文本:

    • 语音到文本有一个“增强视频”模型来解释音频
  • 谷歌视频智能:

    • VI可以选择请求语音转录功能

  • 两者之间的主要区别在于所使用的输入。语音到文本API仅接受音频输入,而视频智能则接受视频输入

    正如您的问题中提到的“语音到文本有一个增强视频模型”,这意味着它有一个用于转录源自视频文件的音频的模型。这意味着原始文件是在视频中,然后转换为音频。如图所示,视频在转录之前被转换为音频


    如果您想直接将音频内容转录成文本,我建议使用视频智能API。您可以使用视频智能API了解这一点。

    谢谢,您知道后端是否使用了相同的型号吗?我能期望非常相似的精度吗?@ProGirlXOXO是的,它在后端使用相同的模型。是的,你应该期望类似的准确度。