Speech recognition 使用Kaldi ASR进行语音命令识别?

Speech recognition 使用Kaldi ASR进行语音命令识别?,speech-recognition,kaldi,Speech Recognition,Kaldi,我和女儿正在造一匹机器马。一个设计目标是使用语音识别来识别给马的命令并做出相应的响应。因为大多数命令几乎都是英文单词,所以我需要一些可以创建自定义单词的东西。我在Kaldi ASR的日常工作中积累了一些经验,所以我想我应该先研究一下它的功能 识别语法将由几个命令组成:行走(行走或两个接吻音)、小跑(TT-ro-TT)、疾驰(Gee-yup)、停止(whoa)、一个“跑得更快”的命令(加油或咯咯叫舌头)加上马的名字和一些短语,如“好孩子”和一些类似咯咯叫舌头的声音 它将运行的硬件将是有限的,可能是

我和女儿正在造一匹机器马。一个设计目标是使用语音识别来识别给马的命令并做出相应的响应。因为大多数命令几乎都是英文单词,所以我需要一些可以创建自定义单词的东西。我在Kaldi ASR的日常工作中积累了一些经验,所以我想我应该先研究一下它的功能

识别语法将由几个命令组成:行走(行走或两个接吻音)、小跑(TT-ro-TT)、疾驰(Gee-yup)、停止(whoa)、一个“跑得更快”的命令(加油或咯咯叫舌头)加上马的名字和一些短语,如“好孩子”和一些类似咯咯叫舌头的声音

它将运行的硬件将是有限的,可能是一个树莓皮4。(但如果这种认可能带来显著的速度优势,我可能会被说服做一些更有力的事情。)

第一个挑战是,即使是同一个人发出的马的指令,也有很多不同的侧重点、节奏和口音。例如,Giddy up可以读作Giddy up、GEE up、EE-YUP、GEE up等。
第二,有些马的命令不是语言:咯咯作响,接吻的声音是两个主要的声音

第一个问题:卡尔迪会很适合这个吗?(我使用它,但对它背后的理论知之甚少。)它能很好地处理众多的发音吗?它能用于像咯咯叫舌头或发出接吻声这样的非言语表达吗?如果没有,这种类型的识别是否有更好的识别引擎

第二个问题:我如何处理各种发音?考虑他们不同的单词和分开训练,或者Kaldi能够处理它,如果我给它大量的样本数据来训练?那么,将发音分成不同的单词会有更好的识别效果吗,还是使用经过大量训练的单个单词来进行语音训练


关于如何最好地训练这些类型的声音的任何其他提示也值得欣赏。

简单的答案是,如果它看到匹配的训练数据,它将工作得很好。我建议你看看Kaldi中的一些关键词识别方法,比如hi_mia。简单的答案是,如果它看到了匹配的训练数据,它会很好地工作。我建议你看看Kaldi中的一些关键词识别方法,比如hi_mia。