Audio 谷歌语音识别API:每个单词的时间戳?

Audio 谷歌语音识别API:每个单词的时间戳?,audio,speech-recognition,speech-to-text,speech,google-speech-api,Audio,Speech Recognition,Speech To Text,Speech,Google Speech Api,通过请求http://www.google.com/speech-api/v2/recognize?... 示例:我在WAV文件中说过“一二三换五”。Google API给了我以下信息: { u'alternative': [ {u'transcript': u'12345'}, {u'transcript': u'1 2 3 4 5'}, {u'transcript': u'one two three four five'} ], u'final': T

通过请求
http://www.google.com/speech-api/v2/recognize?...

示例:我在WAV文件中说过“一二三换五”。Google API给了我以下信息:

{
  u'alternative':
  [
    {u'transcript': u'12345'},
    {u'transcript': u'1 2 3 4 5'},
    {u'transcript': u'one two three four five'}
  ],
  u'final': True
}
问题:是否可以获取每个单词的发音时间(秒)?

以我为例:

['one', 0.23, 0.80], ['two', 1.03, 1.45], ['three', 1.79, 2.35], etc.
i、 e.单词“一”是在00:00:00.23和00:00:00.80之间出现的,
“2”一词是在时间00:00:01.03和00:00:01.45(以秒为单位)之间出现的


PS:正在寻找支持英语以外的其他语言,特别是法语的API。

编辑2020:现在有可能,请参阅其他答案

使用谷歌API是不可能的

如果需要word时间戳,可以使用其他API,例如:

-免费离线语音识别API(披露:我是Vosk的主要作者)


我认为另一个答案现在已经过时了。现在,通过谷歌云搜索API,这是可能的:
是的,很有可能。您需要做的只是:

在配置集中,enable_word_time_offset=True

config=types.RecognitionConfig(
....

启用\u word\u time\u offset=True)
谢谢!你试过这3个API吗?他们和谷歌一样好吗?我每天都对谷歌的语音识别功能感到惊讶。(我对我的安卓手机(大声)发短信,手机几乎没有出错!)它们的准确度应该是可以比较的。遗憾的是,它们似乎都不支持法语。我们正是为了这个目的尝试了IBM BlueMix语音API,发现准确度非常差。即使是像“勺子”这样简单而清晰的孤立词,也会以“月亮”、“房间”、“厄运”、“布鲁姆”、“谁”的形式出现。这是在我预先将关键字设置为(“勺子”)且接受概率较低之后。正如OP提到的,IBM确实为每个单词提供了开始和停止时间(谷歌显然没有),但是准确度太低,无法使用。嗯?Afaics谷歌语音api支持法语,不是吗?@Ctx是的,但它不支持每个单词的时间戳