Python 为什么谷歌语音识别API只返回前2-3秒转换的音频文本_Python_Google Cloud Platform_Google Speech Api

Python 为什么谷歌语音识别API只返回前2-3秒转换的音频文本

python google-cloud-platform

Python 为什么谷歌语音识别API只返回前2-3秒转换的音频文本,python,google-cloud-platform,google-speech-api,Python,Google Cloud Platform,Google Speech Api,我在谷歌云控制台中创建了一个项目，在这个项目中启用了谷歌语音API，并创建了凭证。还使用了谷歌推荐的transcribe.py 我可以使用谷歌控制台生成的API密钥成功地将音频文件（30秒）翻译成文本，但不能完全翻译成文本，只需前2-3秒。我的帐户现在是免费试用的，所以我怀疑这是否是因为我的帐户类型（免费试用）谷歌的反应就像 {“结果”：[{“备选方案”：[{“信心”：0.89569235，“成绩单”：“我在森林里野餐了，我要回家了，跟我一起走”}]} 音频文件为wav文件，格式为（f

我在谷歌云控制台中创建了一个项目，在这个项目中启用了谷歌语音API，并创建了凭证。还使用了谷歌推荐的transcribe.py

我可以使用谷歌控制台生成的API密钥成功地将音频文件（30秒）翻译成文本，但不能完全翻译成文本，只需前2-3秒。我的帐户现在是免费试用的，所以我怀疑这是否是因为我的帐户类型（免费试用）

谷歌的反应就像 {“结果”：[{“备选方案”：[{“信心”：0.89569235，“成绩单”：“我在森林里野餐了，我要回家了，跟我一起走”}]}

音频文件为wav文件，格式为（ffprobe打印）流#0:0：音频：pcm#s16le（[1][0][0][0]/0x0001），16000 Hz，1个通道，s16，256 kb/s

音频文件已经上传到谷歌硬盘，链接在这里

有人知道上述流程/步骤有什么问题吗？或者这是bug google语音识别api？

使用google api浏览器和云语音api服务，可以通过分析音频文件的单独样本来分离以下相关语音识别结果：

剪切1:0-00'08“015，结果9:“我在森林里野餐了，我要回家了，所以跟我来吧”
剪下2:00'08“732-00'11”184，结果2：“听那是什么”
切割3:00'13“500-直到结束，结果2:“它看起来怎么样”

使用以下配置获得这些结果：

“config”: {
    “encoding”: “LINEAR16”,
    “sampleRate”: 16000,
    “maxAlternatives”: “30”,
}

P.>事实上，语音API目前存在已知的问题，并且它可能会阻止转录正确地工作（不管是在付费或免费试用的基础上）。

在整个语音记录过程中播放背景音乐，这可能会产生足够的背景噪音，从而降低转录准确性。（请注意，语音API旨在转录用户向应用程序麦克风口述的文本）

进一步建议，当从多人处捕获音频时，建议分割音频。在您的情况下，青蛙的声音可能被检测为不同的人声，因此也会影响转录准确性

考虑到这两个已知问题，重要的是去除任何噪声，只处理来自录音主角的统一语音。或者，您可以分割录音，并尝试单独转录包含单个字符语音的录音的每个单独部分。

我有一个类似的例子但使用其中一种增强模型能够获得完整的转录

config = {
  ...
  use_enhanced: true,
  model: "phone_call"
}

您可以查看以下详细信息：