Audio 谷歌语音识别API：每个单词的时间戳？_Audio_Speech Recognition_Speech To Text_Speech_Google Speech Api

Audio 谷歌语音识别API：每个单词的时间戳？

audio speech-recognition

Audio 谷歌语音识别API：每个单词的时间戳？,audio,speech-recognition,speech-to-text,speech,google-speech-api,Audio,Speech Recognition,Speech To Text,Speech,Google Speech Api,通过请求http://www.google.com/speech-api/v2/recognize?... 示例：我在WAV文件中说过“一二三换五”。Google API给了我以下信息： { u'alternative': [ {u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, {u'transcript': u'one two three four five'} ], u'final': T

通过请求

http://www.google.com/speech-api/v2/recognize?...

示例：我在WAV文件中说过“一二三换五”。Google API给了我以下信息：

{
  u'alternative':
  [
    {u'transcript': u'12345'},
    {u'transcript': u'1 2 3 4 5'},
    {u'transcript': u'one two three four five'}
  ],
  u'final': True
}

问题：是否可以获取每个单词的发音时间（秒）？

以我为例：

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.

i、 e.单词“一”是在00:00:00.23和00:00:00.80之间出现的，
“2”一词是在时间00:00:01.03和00:00:01.45（以秒为单位）之间出现的

PS：正在寻找支持英语以外的其他语言，特别是法语的API。

编辑2020:现在有可能，请参阅其他答案

使用谷歌API是不可能的

如果需要word时间戳，可以使用其他API，例如：

-免费离线语音识别API（披露：我是Vosk的主要作者）

我认为另一个答案现在已经过时了。现在，通过谷歌云搜索API，这是可能的：

是的，很有可能。您需要做的只是：

在配置集中，enable_word_time_offset=True

config=types.RecognitionConfig(
....
启用\u word\u time\u offset=True）

谢谢！你试过这3个API吗？他们和谷歌一样好吗？我每天都对谷歌的语音识别功能感到惊讶。（我对我的安卓手机（大声）发短信，手机几乎没有出错！）它们的准确度应该是可以比较的。遗憾的是，它们似乎都不支持法语。我们正是为了这个目的尝试了IBM BlueMix语音API，发现准确度非常差。即使是像“勺子”这样简单而清晰的孤立词，也会以“月亮”、“房间”、“厄运”、“布鲁姆”、“谁”的形式出现。这是在我预先将关键字设置为（“勺子”）且接受概率较低之后。正如OP提到的，IBM确实为每个单词提供了开始和停止时间（谷歌显然没有），但是准确度太低，无法使用。嗯？Afaics谷歌语音api支持法语，不是吗？@Ctx是的，但它不支持每个单词的时间戳