Neural network 印度口音kaldi ASR声学模型的说话人自适应

Neural network 印度口音kaldi ASR声学模型的说话人自适应,neural-network,speech-recognition,speech-to-text,Neural Network,Speech Recognition,Speech To Text,我正在为讲印度口音的人进行语音识别。目前,我正在使用Kaldi ASR的在线nnet2解码工具。 当说话者有良好的英语发音时,该工具工作正常。但是,如果说话人说话的口音与美国英语口音不同,这就是失败 那么,有谁能建议使用Kaldi ASR对声学或神经网络模型的说话人自适应程序吗?有很多方法可以做到这一点或思考这一点 1-如果您只谈论重音(这意味着,没有新词,标准语法)->那么您应该主要使用模型的声学部分。获取尽可能多的音频和转录数据(数百小时),以便更新模型的H部分 2-如果你正在谈论更复杂的事

我正在为讲印度口音的人进行语音识别。目前,我正在使用Kaldi ASR的在线nnet2解码工具。 当说话者有良好的英语发音时,该工具工作正常。但是,如果说话人说话的口音与美国英语口音不同,这就是失败


那么,有谁能建议使用Kaldi ASR对声学或神经网络模型的说话人自适应程序吗?

有很多方法可以做到这一点或思考这一点

1-如果您只谈论重音(这意味着,没有新词,标准语法)->那么您应该主要使用模型的声学部分。获取尽可能多的音频和转录数据(数百小时),以便更新模型的H部分

2-如果你正在谈论更复杂的事情,你应该考虑更新词汇(添加单词)和语法(fst)(包括我的第一点)

您可以尝试从AMI模型及其论文开始,它们包含在Kaldi的示例中。参见俚语,你指的是口音吗?