Google cloud platform YouTube'；s的自动字幕比Google语音到文本API（型号：video，UseEnhanced:true）效果更好。这怎么可能呢？_Google Cloud Platform_Speech Recognition_Speech To Text_Google Cloud Speech_Google Speech To Text Api

Google cloud platform YouTube'；s的自动字幕比Google语音到文本API（型号：video，UseEnhanced:true）效果更好。这怎么可能呢？

google-cloud-platform speech-recognition

Google cloud platform YouTube'；s的自动字幕比Google语音到文本API（型号：video，UseEnhanced:true）效果更好。这怎么可能呢？,google-cloud-platform,speech-recognition,speech-to-text,google-cloud-speech,google-speech-to-text-api,Google Cloud Platform,Speech Recognition,Speech To Text,Google Cloud Speech,Google Speech To Text Api,这里是我的谷歌语音文字AI设置以下是语音到文本AI的输出文件：以下是YouTube自动字幕的输出文件：这是视频链接：这是提供给谷歌语音AI的视频音频文件：这里我提供了时间分配的SRT文件 YouTube的SRT：谷歌语音到文本API的SRT（时间由YouTube指定）：我比较了一些句子，肯定YouTube的自动翻译更好比如说谷歌语音到文本：表示**医生**表示是计算机人工智能中最难的部分之一，您将在未来的课程中了解更多相关信息。 What does this mean? Do

这里是我的谷歌语音文字AI设置

以下是语音到文本AI的输出文件：

以下是YouTube自动字幕的输出文件：

这是视频链接：

这是提供给谷歌语音AI的视频音频文件：

这里我提供了时间分配的SRT文件

YouTube的SRT：

谷歌语音到文本API的SRT（时间由YouTube指定）：

我比较了一些句子，肯定YouTube的自动翻译更好

比如说

谷歌语音到文本：

表示**医生**表示是计算机人工智能中最难的部分之一，您将在未来的课程中了解更多相关信息。

What does this mean? Do you think this means that we are not just focused on behavior and **into doubt**. It is more about the reasoning when a human takes an action. There is a reasoning behind it.

YouTube的自动字幕：

表示**数据**表示是计算机人工智能中最难的部分之一。我们将在未来的课程中进一步了解这一点

what does this mean do you think this means that we are not just focused on behavior and **input** it is more about the reasoning when a human takes an action there is a reasoning behind it

我查了很多案例，YouTube猜对单词的效果要好得多。这怎么可能呢

这是我用来提取视频音频的命令：

ffmpeg-I“input.mkv”-af aformat=s16:48000:output.flac

该功能的自动字幕和语音到文本识别的转录都是由机器学习算法生成的，在这种情况下，转录的质量可能会根据不同的方面而有所不同

需要注意的是，语音到文本API使用机器学习算法进行转录，这些算法会随着时间的推移而改进，并且结果会根据输入文件和请求配置而变化。帮助Google转录模型的一种方法是启用，这将允许Google从您的音频转录请求中收集数据，这将有助于改进用于识别语音音频的机器学习模型，包括增强模型

此外，在语音到文本API的请求配置中，您可以指定设置。此参数包含编码、sampleRateHertz、languageCode、MaxAlternations、亵渎过滤器和speechContext，每个参数都对文件转录的准确性起着重要作用

特别是对于FLAC音频文件，a有助于提高所提供音频的质量，因为原始数字样本的质量没有下降，FLAC使用了从0（最快）到8（最小文件大小）的压缩级别参数

此外，语音到文本API提供了不同的方法来提高转录的准确性，例如：

：此功能允许您指定STT在音频数据中应更频繁识别的单词和/或短语
：此功能允许您根据在音频数据中识别单词和/或短语的频率，为它们添加数字权重
：发送为语音识别任务提供提示的单词和短语列表

这些功能可能会帮助您提高语音到文本API识别音频文件的准确性

最后，请参阅“语音到文本”以改进音频文件的转录，这些建议旨在提高效率和准确性，以及API的合理响应时间。

这怎么可能？这只是一个猜测，但即使谷歌拥有YouTube，YouTube与谷歌是一个不同的组织，有不同的研究人员，有完全不同的动机将语音转换为文本。@GilbertLeBlanc我完全明白。但是Google语音到文本API的全部目标是提供尽可能最好的结果。因为这是一项优质服务，不是免费的。这让我很震惊。我所能说的就是向谷歌发送一封包含你的研究的电子邮件。我怀疑你发现的背后的原因告诉我们，YouTube的政治动机要比谷歌的利润动机强得多。