Ibm cloud IBMCloud语音到文本:是否可以为自定义词汇表指定音素?

Ibm cloud IBMCloud语音到文本:是否可以为自定义词汇表指定音素?,ibm-cloud,speech-to-text,vocabulary,phoneme,Ibm Cloud,Speech To Text,Vocabulary,Phoneme,我们需要用大量已经音素转录的自定义词汇表构建一个自定义模型,但是当前用于指定自定义单词的API没有用于指定音素字符串的已发布选项,而不是手动生成的临时“类似声音”的正交字符串。由于我们还没有找到任何可靠的工具来根据规则从音素字符串生成等效的“类似声音”字符串,这对我们成功使用IBM语音到文本引擎来说是一个真正的障碍 在通过IBM cloud speech to text API将自定义单词添加到自定义模型时,是否有一个公认的语音/音素字母表和可用的API机制来指定音素字符串而不是另一种正字法来指

我们需要用大量已经音素转录的自定义词汇表构建一个自定义模型,但是当前用于指定自定义单词的API没有用于指定音素字符串的已发布选项,而不是手动生成的临时“类似声音”的正交字符串。由于我们还没有找到任何可靠的工具来根据规则从音素字符串生成等效的“类似声音”字符串,这对我们成功使用IBM语音到文本引擎来说是一个真正的障碍

在通过IBM cloud speech to text API将自定义单词添加到自定义模型时,是否有一个公认的语音/音素字母表和可用的API机制来指定音素字符串而不是另一种正字法来指示自定义单词的发音?(即,模拟IPA以及在IBMs文本到语音API中使用IPA的机制?)


(或者,IBM或其他公司是否有一个很好的工具,可以将音素序列转换成保证由ASR引擎重新转换回同一音素字符串的正字法?

通过技术支持,我发现API中目前有一个“暗/未记录”的功能,通过它,可以通过使用以下格式封装语音字符串来指定“类似声音”规范中的音素字符串:“”

例如,这里有一个卷曲示例,为单词“challah”添加了发音“hː.lə”:

curl -u $CREDS  -X PUT --header "Content-Type:application/json"  --data "{\"sounds_like\":[\"<phoneme hɑː.lə>\"]}" https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah
curl-u$CREDS-X PUT--header“Content-Type:application/json”--数据“{\”听起来像\”:[\“\”]}https://stream.watsonplatform.net/speech-to-text/api/v1/customizations/$custID/words/challah
在构建CustomWord对象并通过API提交它们时,也可以使用这种格式

IPA符号的可接受范围似乎与其文本到语音API的可接受范围相同,可在此处找到: