Google cloud platform 语音到文本和视频智能语音转录是如何相关的？_Google Cloud Platform_Speech To Text_Google Speech To Text Api_Video Intelligence Api

Google cloud platform 语音到文本和视频智能语音转录是如何相关的？

google-cloud-platform

Google cloud platform 语音到文本和视频智能语音转录是如何相关的？,google-cloud-platform,speech-to-text,google-speech-to-text-api,video-intelligence-api,Google Cloud Platform,Speech To Text,Google Speech To Text Api,Video Intelligence Api,我的目标是使用语音到文本模型处理几个视频令人困惑的是，谷歌有两款产品似乎在做同样的事情这些产品之间的主要区别是什么谷歌云语音到文本：语音到文本有一个“增强视频”模型来解释音频谷歌视频智能： VI可以选择请求语音转录功能两者之间的主要区别在于所使用的输入。语音到文本API仅接受音频输入，而视频智能则接受视频输入正如您的问题中提到的“语音到文本有一个增强视频模型”，这意味着它有一个用于转录源自视频文件的音频的模型。这意味着原始文件是在视频中，然后转换为音频。如图所示，视频在

我的目标是使用语音到文本模型处理几个视频

令人困惑的是，谷歌有两款产品似乎在做同样的事情

这些产品之间的主要区别是什么

谷歌云语音到文本：

语音到文本有一个“增强视频”模型来解释音频

谷歌视频智能：

VI可以选择请求语音转录功能

两者之间的主要区别在于所使用的输入。语音到文本API仅接受音频输入，而视频智能则接受视频输入

正如您的问题中提到的“语音到文本有一个增强视频模型”，这意味着它有一个用于转录源自视频文件的音频的模型。这意味着原始文件是在视频中，然后转换为音频。如图所示，视频在转录之前被转换为音频

如果您想直接将音频内容转录成文本，我建议使用视频智能API。您可以使用视频智能API了解这一点。

谢谢，您知道后端是否使用了相同的型号吗？我能期望非常相似的精度吗？@ProGirlXOXO是的，它在后端使用相同的模型。是的，你应该期望类似的准确度。