谷歌云语音到文本（MP3到文本）_Mp3_Speech To Text_Google Cloud Speech

谷歌云语音到文本（MP3到文本）

谷歌云语音到文本（MP3到文本）,mp3,speech-to-text,google-cloud-speech,Mp3,Speech To Text,Google Cloud Speech,我正在使用谷歌云平台语音转文本API试用账户服务。我无法从音频文件中获取文本。我不知道什么确切的编码和采样率赫兹我应该使用的MP3文件的比特率128kbps。我尝试了各种选择，但我没有得到转录 const speech = require('@google-cloud/speech'); const config = { encoding: 'LINEAR16', //AMR, AMR_WB, LINEAR16(for wav) sampleRateHertz: 16000, //

我正在使用谷歌云平台语音转文本API试用账户服务。我无法从音频文件中获取文本。我不知道什么确切的编码和采样率赫兹我应该使用的MP3文件的比特率128kbps。我尝试了各种选择，但我没有得到转录

const speech = require('@google-cloud/speech');

const config = {
  encoding: 'LINEAR16',  //AMR, AMR_WB, LINEAR16(for wav)
  sampleRateHertz: 16000,  //16000 giving blank result.
  languageCode: 'en-US'
};

我有同样的问题，并通过将其转换为FLAC解决了它

尝试将音频转换为FLAC并使用

encoding: 'FLAC',

对于转换，可以使用sox

参考：

根据官方文件（）

仅支持以下格式：

FLAC
直线16
穆劳
AMR
AMR_WB
奥古作品
SPEEX_与_头_字节

其他任何东西都将被拒绝

您最好将MP3文件转换为：

FLAC
在这种情况下，请使用Wav和LINEAR16。你可以用NAudio

老实说，与亚马逊、IBM和微软相比，谷歌一开始就不支持MP3，这让人很恼火，因为FLAC和LINEAR16是无损的，因此传输容量要大得多。亚马逊、IBM和微软迫使我们跳过障碍，并提高带宽使用率。MP3现在在beta版中受支持：

MP3仅作为测试版提供。有关详细信息，请参阅参考资料

MP3MP3音频。支持所有标准MP3比特率（范围为32-320 kbps）。使用此编码时，如果未知，sampleRateHertz可以选择性地取消设置

您可以使用iTunes等多种工具了解采样率。CD质量音频使用44100赫兹的采样率。请在此处阅读更多信息：

要在Google SDK中使用它，您可能需要使用定义它的beta SDK之一。以下是Go Beta SDK中的常量：

RecognitionConfig_MP3 RecognitionConfig_AudioEncoding = 8

从文件中获取文本的格式是什么。我正在使用下面的内容，但失败并返回空结果。{“encoding”：“MULAW”，“sampleRateHertz”：（16000），“languageCode”：“en-IN”，“MaxAlternations”：@30}URL是NSString*service=@；我对采样率为44100 Hz的mp3文件使用了betaversion（使用sox发现）…但是如果我使用它，api只翻译第一个单词…而如果我使用采样率为8000…api正确翻译…当我使用azure语音到文本api时，没有这样的问题