Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/google-cloud-platform/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 为什么谷歌语音识别API只返回前2-3秒转换的音频文本_Python_Google Cloud Platform_Google Speech Api - Fatal编程技术网

Python 为什么谷歌语音识别API只返回前2-3秒转换的音频文本

Python 为什么谷歌语音识别API只返回前2-3秒转换的音频文本,python,google-cloud-platform,google-speech-api,Python,Google Cloud Platform,Google Speech Api,我在谷歌云控制台中创建了一个项目,在这个项目中启用了谷歌语音API,并创建了凭证。 还使用了谷歌推荐的transcribe.py 我可以使用谷歌控制台生成的API密钥成功地将音频文件(30秒)翻译成文本,但不能完全翻译成文本,只需前2-3秒。我的帐户现在是免费试用的,所以我怀疑这是否是因为我的帐户类型(免费试用) 谷歌的反应就像 {“结果”:[{“备选方案”:[{“信心”:0.89569235,“成绩单”:“我在森林里野餐了,我要回家了,跟我一起走”}]} 音频文件为wav文件,格式为(f

我在谷歌云控制台中创建了一个项目,在这个项目中启用了谷歌语音API,并创建了凭证。 还使用了谷歌推荐的transcribe.py

我可以使用谷歌控制台生成的API密钥成功地将音频文件(30秒)翻译成文本,但不能完全翻译成文本,只需前2-3秒。我的帐户现在是免费试用的,所以我怀疑这是否是因为我的帐户类型(免费试用)

谷歌的反应就像 {“结果”:[{“备选方案”:[{“信心”:0.89569235,“成绩单”:“我在森林里野餐了,我要回家了,跟我一起走”}]}

音频文件为wav文件,格式为(ffprobe打印) 流#0:0:音频:pcm#s16le([1][0][0][0]/0x0001),16000 Hz,1个通道,s16,256 kb/s

音频文件已经上传到谷歌硬盘,链接在这里


有人知道上述流程/步骤有什么问题吗?或者这是bug google语音识别api?

使用google api浏览器和云语音api服务,可以通过分析音频文件的单独样本来分离以下相关语音识别结果:

  • 剪切1:0-00'08“015,结果9:“我在森林里野餐了,我要回家了,所以跟我来吧”
  • 剪下2:00'08“732-00'11”184,结果2:“听那是什么”
  • 切割3:00'13“500-直到结束,结果2:“它看起来怎么样”
使用以下配置获得这些结果:

“config”: {
    “encoding”: “LINEAR16”,
    “sampleRate”: 16000,
    “maxAlternatives”: “30”,
}
P.>事实上,语音API目前存在已知的问题,并且它可能会阻止转录正确地工作(不管是在付费或免费试用的基础上)。
  • 在整个语音记录过程中播放背景音乐,这可能会产生足够的背景噪音,从而降低转录准确性。(请注意,语音API旨在转录用户向应用程序麦克风口述的文本)
  • 进一步建议,当从多人处捕获音频时,建议分割音频。在您的情况下,青蛙的声音可能被检测为不同的人声,因此也会影响转录准确性

  • 考虑到这两个已知问题,重要的是去除任何噪声,只处理来自录音主角的统一语音。或者,您可以分割录音,并尝试单独转录包含单个字符语音的录音的每个单独部分。

    我有一个类似的例子但使用其中一种增强模型能够获得完整的转录

    config = {
      ...
      use_enhanced: true,
      model: "phone_call"
    }
    
    您可以查看以下详细信息: