谷歌云语音API单词提示

谷歌云语音API单词提示,api,speech,hints,Api,Speech,Hints,你能给出一个在谷歌云语音API中使用单词提示的例子吗。我尝试对brook.flac使用RESTAPI执行器。我输入短语Brooklin(而不是Brooklyn),但结果是一样的。它们能用吗?来自 对于任何给定的识别任务,您还可以传递speechContext(speechContext类型),它提供信息以帮助处理给定的音频。当前,上下文可以保存短语列表,作为识别器的“提示”;这些短语可以提高这些单词或短语被识别的概率 { "config": { "enc

你能给出一个在谷歌云语音API中使用单词提示的例子吗。我尝试对brook.flac使用RESTAPI执行器。我输入短语Brooklin(而不是Brooklyn),但结果是一样的。它们能用吗?

来自

对于任何给定的识别任务,您还可以传递speechContext(speechContext类型),它提供信息以帮助处理给定的音频。当前,上下文可以保存短语列表,作为识别器的“提示”;这些短语可以提高这些单词或短语被识别的概率

{
  "config": {
    "encoding":"FLAC",
    "sampleRateHertz": 16000,
    "languageCode":"en-US",
    "speechContexts": {
      "phrases":["shwazil hoful day"]
     }
  },
  "audio":{
    "uri":"gs://speech-demo/shwazil_hoful.flac"
  }
}
您可以通过以下几种方式使用这些短语提示:

提高音频数据中可能出现过多的特定单词和短语的准确性。例如,如果用户通常使用特定命令,则可以提供这些短语提示。如果所提供的音频包含噪声或所包含的语音不是很清晰,则此类附加短语可能特别有用。 将其他单词添加到识别任务的词汇表中。云语音API包含非常大的词汇表。但是,如果专有名称或特定于域的单词不在词汇表中,您可以将它们添加到请求的speechContext中提供的短语中。 短语既可以作为小词组提供,也可以作为单个词提供。(有关这些短语的数量和大小的限制,请参见内容限制。)当作为多词短语提供时,提示可以提高按顺序识别这些单词的概率,但也可以在较小程度上提高识别部分短语(包括单个单词)的概率

例如,这个shwazil_hoful.flac文件包含一些虚构的单词。如果在没有提供这些词汇表外单词的情况下执行识别,识别器将不会返回所需的转录本,而是返回词汇表中的单词,例如:“这是一整天的吞咽”

但是,当这些词汇表外的单词与识别请求一起提供时,识别器将返回所需的成绩单:“这是shwazil hoful日”

或者,如果某些单词通常在一个短语中一起说,则可以将它们组合在一起,这可能进一步增加识别它们的信心

{
  "config": {
    "encoding":"FLAC",
    "sampleRateHertz": 16000,
    "languageCode":"en-US",
    "speechContexts": {
      "phrases":["shwazil hoful day"]
     }
  },
  "audio":{
    "uri":"gs://speech-demo/shwazil_hoful.flac"
  }
}

一般来说,在提供语音上下文提示时要谨慎。通过将短语限制在预期要说的短语,可以获得更好的识别准确率。例如,如果存在多个对话框状态或设备操作模式,则只提供与当前状态相对应的提示,而不是总是为所有可能的状态提供提示。

@PavelPopov我发现了什么,在谷歌语音API中指出一个包含你想要的提示词的短语要比仅仅指出这个词要好得多。Api可以在语音识别过程中更成功地检测您的自定义单词,即使其周围的单词与您指定为提示的短语不同。如果我有数百或数千个需要识别的特殊单词(如医学词汇),我该怎么办?我应该将所有这些音频文件添加到语音上下文中吗?那么Google处理这些文件需要多长时间?@asmaier如果你使用kaldi构建一个专门的系统,它将比Google准确得多。你的链接已经失效(或者说,不再有该文本)。新链接:
{
  "config": {
    "encoding":"FLAC",
    "sampleRateHertz": 16000,
    "languageCode":"en-US",
    "speechContexts": {
      "phrases":["shwazil hoful day"]
     }
  },
  "audio":{
    "uri":"gs://speech-demo/shwazil_hoful.flac"
  }
}