Speech recognition 用CMU Sphinx进行数字识别
各位专家 我有很多包含数字(0-9)的mp3文件(原始音频流采样器为11.025 kHz) 不同的说话者(男性/女性)说例如“一”、“七”、“三”等,中间有停顿(~2-2.5秒) 我将使用CMU Sphinx来识别语音(桌面应用程序)。所以我有一些问题:Speech recognition 用CMU Sphinx进行数字识别,speech-recognition,voice-recognition,cmusphinx,pocketsphinx,Speech Recognition,Voice Recognition,Cmusphinx,Pocketsphinx,各位专家 我有很多包含数字(0-9)的mp3文件(原始音频流采样器为11.025 kHz) 不同的说话者(男性/女性)说例如“一”、“七”、“三”等,中间有停顿(~2-2.5秒) 我将使用CMU Sphinx来识别语音(桌面应用程序)。所以我有一些问题: MP3解码:如何解码我的MP3文件意味着什么 我是否应该指定为ffmpeg(据我所知,不建议指定为ffmpeg) 上采样/下采样流)。解码时是否应过滤噪音和/或频带 声学模型:如果我不对流进行上采样/下采样,怎么能 我发现一个声学模型支持110
pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000
识别模式:我发现转录有两种模式——按键识别和识别。考虑到我只有数字(还有一些噪音),哪个模式更好
识别模式谢谢你,Nokilay。我的幸运组合是:
pocketsphinx_continuous-infle file.wav-jsgf digits.gram-hmm-voxforge_model-samprate 8000-remove_dc yes-remove_noise no-vad_threshold 3.4-vad_prespeech 19-vad_postspeech 37-silprob 2.5
CMU Sphinx常见问题解答:从mp3解码的音频文件中的零静音区域会破坏解码器。可以使用抖动引入小的随机噪声来解决此问题。你的意思是它会影响结果吗?不,voxforge模型的精度肯定要低得多。您的附加参数也是错误的,您不应该禁用噪声消除。要分析较差的精度,您需要提供少量的测试样本。我建议您在cmusphinx论坛上讨论这个问题,它并不真正适合stackoverflow格式。对于感兴趣的人,请继续:
ffmpeg -i file.mp3 -ar 8000 file.wav
pocketsphinx_continuous -infile file.wav -jsgf digits.gram -hmm en-us-8khz -samprate 8000