谷歌云语音到文本(MP3到文本)

谷歌云语音到文本(MP3到文本),mp3,speech-to-text,google-cloud-speech,Mp3,Speech To Text,Google Cloud Speech,我正在使用谷歌云平台语音转文本API试用账户服务。我无法从音频文件中获取文本。我不知道什么确切的编码和采样率赫兹我应该使用的MP3文件的比特率128kbps。我尝试了各种选择,但我没有得到转录 const speech = require('@google-cloud/speech'); const config = { encoding: 'LINEAR16', //AMR, AMR_WB, LINEAR16(for wav) sampleRateHertz: 16000, //

我正在使用谷歌云平台语音转文本API试用账户服务。我无法从音频文件中获取文本。我不知道什么确切的编码和采样率赫兹我应该使用的MP3文件的比特率128kbps。我尝试了各种选择,但我没有得到转录

const speech = require('@google-cloud/speech');

const config = {
  encoding: 'LINEAR16',  //AMR, AMR_WB, LINEAR16(for wav)
  sampleRateHertz: 16000,  //16000 giving blank result.
  languageCode: 'en-US'
};

我有同样的问题,并通过将其转换为FLAC解决了它

尝试将音频转换为FLAC并使用

encoding: 'FLAC',
对于转换,可以使用sox
参考:

根据官方文件()

仅支持以下格式:

  • FLAC
  • 直线16
  • 穆劳
  • AMR
  • AMR_WB
  • 奥古作品
  • SPEEX_与_头_字节
其他任何东西都将被拒绝

您最好将MP3文件转换为:

  • FLAC
  • 在这种情况下,请使用Wav和LINEAR16。你可以用NAudio

老实说,与亚马逊、IBM和微软相比,谷歌一开始就不支持MP3,这让人很恼火,因为FLAC和LINEAR16是无损的,因此传输容量要大得多。亚马逊、IBM和微软迫使我们跳过障碍,并提高带宽使用率。MP3现在在beta版中受支持:

MP3仅作为测试版提供。有关详细信息,请参阅参考资料

MP3MP3音频。支持所有标准MP3比特率(范围为32-320 kbps)。使用此编码时,如果未知,sampleRateHertz可以选择性地取消设置

您可以使用iTunes等多种工具了解采样率。CD质量音频使用44100赫兹的采样率。请在此处阅读更多信息:

要在Google SDK中使用它,您可能需要使用定义它的beta SDK之一。以下是Go Beta SDK中的常量:

RecognitionConfig_MP3 RecognitionConfig_AudioEncoding = 8

从文件中获取文本的格式是什么。我正在使用下面的内容,但失败并返回空结果。{“encoding”:“MULAW”,“sampleRateHertz”:(16000),“languageCode”:“en-IN”,“MaxAlternations”:@30}URL是NSString*service=@;我对采样率为44100 Hz的mp3文件使用了betaversion(使用sox发现)…但是如果我使用它,api只翻译第一个单词…而如果我使用采样率为8000…api正确翻译…当我使用azure语音到文本api时,没有这样的问题