Speech recognition 使用Kaldi ASR进行语音命令识别？_Speech Recognition_Kaldi

Speech recognition 使用Kaldi ASR进行语音命令识别？

speech-recognition

Speech recognition 使用Kaldi ASR进行语音命令识别？,speech-recognition,kaldi,Speech Recognition,Kaldi,我和女儿正在造一匹机器马。一个设计目标是使用语音识别来识别给马的命令并做出相应的响应。因为大多数命令几乎都是英文单词，所以我需要一些可以创建自定义单词的东西。我在Kaldi ASR的日常工作中积累了一些经验，所以我想我应该先研究一下它的功能识别语法将由几个命令组成：行走（行走或两个接吻音）、小跑（TT-ro-TT）、疾驰（Gee-yup）、停止（whoa）、一个“跑得更快”的命令（加油或咯咯叫舌头）加上马的名字和一些短语，如“好孩子”和一些类似咯咯叫舌头的声音它将运行的硬件将是有限的，可能是

我和女儿正在造一匹机器马。一个设计目标是使用语音识别来识别给马的命令并做出相应的响应。因为大多数命令几乎都是英文单词，所以我需要一些可以创建自定义单词的东西。我在Kaldi ASR的日常工作中积累了一些经验，所以我想我应该先研究一下它的功能

识别语法将由几个命令组成：行走（行走或两个接吻音）、小跑（TT-ro-TT）、疾驰（Gee-yup）、停止（whoa）、一个“跑得更快”的命令（加油或咯咯叫舌头）加上马的名字和一些短语，如“好孩子”和一些类似咯咯叫舌头的声音

它将运行的硬件将是有限的，可能是一个树莓皮4。（但如果这种认可能带来显著的速度优势，我可能会被说服做一些更有力的事情。）

第一个挑战是，即使是同一个人发出的马的指令，也有很多不同的侧重点、节奏和口音。例如，Giddy up可以读作Giddy up、GEE up、EE-YUP、GEE up等。
第二，有些马的命令不是语言：咯咯作响，接吻的声音是两个主要的声音

第一个问题：卡尔迪会很适合这个吗？（我使用它，但对它背后的理论知之甚少。）它能很好地处理众多的发音吗？它能用于像咯咯叫舌头或发出接吻声这样的非言语表达吗？如果没有，这种类型的识别是否有更好的识别引擎

第二个问题：我如何处理各种发音？考虑他们不同的单词和分开训练，或者Kaldi能够处理它，如果我给它大量的样本数据来训练？那么，将发音分成不同的单词会有更好的识别效果吗，还是使用经过大量训练的单个单词来进行语音训练

关于如何最好地训练这些类型的声音的任何其他提示也值得欣赏。

简单的答案是，如果它看到匹配的训练数据，它将工作得很好。我建议你看看Kaldi中的一些关键词识别方法，比如hi_mia。简单的答案是，如果它看到了匹配的训练数据，它会很好地工作。我建议你看看Kaldi中的一些关键词识别方法，比如hi_mia。