Google cloud platform 谷歌语音到文本无法识别大量音频_Google Cloud Platform_Speech Recognition_Google Speech Api

Google cloud platform 谷歌语音到文本无法识别大量音频

google-cloud-platform speech-recognition

Google cloud platform 谷歌语音到文本无法识别大量音频,google-cloud-platform,speech-recognition,google-speech-api,Google Cloud Platform,Speech Recognition,Google Speech Api,我制作了一个脚本来使用Speech-to-text API。它可以很好地处理一个音频（它是一个m4a转换为wav的音频），但它在处理另一个类似音频（同一来源，m4a转换为wav）时失败很多（错过了大部分文本）。这两种音频听起来很相似（至少对我来说是这样），但结果却大不相同。我已经设置了元数据和配置，我不知道还有什么可以改进结果相关参数： metadata = { "original_media_type": enums.RecognitionMetadata.Original

我制作了一个脚本来使用Speech-to-text API。它可以很好地处理一个音频（它是一个m4a转换为wav的音频），但它在处理另一个类似音频（同一来源，m4a转换为wav）时失败很多（错过了大部分文本）。这两种音频听起来很相似（至少对我来说是这样），但结果却大不相同。我已经设置了元数据和配置，我不知道还有什么可以改进结果

相关参数：

metadata = {
        "original_media_type": enums.RecognitionMetadata.OriginalMediaType.AUDIO,
        "original_mime_type": 'audio/m4a',
}

sample_rate_hertz = 44100
encoding = enums.RecognitionConfig.AudioEncoding.LINEAR16

config = {
      "metadata": metadata,
      "sample_rate_hertz": sample_rate_hertz,
      "audio_channel_count": 2,
      "language_code": language_code,
       "encoding": encoding}

由于其中一个文件的解析结果是可以接受的，所以我可以断定我的代码是正确的，这就是为什么我考虑更改一个参数来修复其他音频

对不起，我不能分享原来的音频。

< P>你可以查看你的音频输入，考虑一下。

基于此，我建议验证所使用的编码，或者尝试使用一种差异。您还可以将云语音转换为文本

还确认了，似乎云语音对文本的支持