Speech recognition Microsoft自定义语音服务(CRIS)
我正在和CRIS一起进行POC,我们正在构建一个语音机器人,并希望训练我们的机器人适应动态条件和实时场景 正如CRIS中提到的,我们可以通过建立一个定制的声学模型来克服背景噪声屏障,我想实现同样的效果 我根据约4.5小时的长度构建了2个自定义语音模型。 第一个模型基于没有背景噪声的干净音频文件。 第二个模型基于相同的音频文件,上面叠加了噪声 上下文中的语言是简单的英语,没有特定的词汇 这两个模型的数据集是相同的。唯一的区别是,在第二个模型的数据集中,所有文件都叠加了静态背景噪声 我根据叠加了噪音的音频文件进行了准确度测试,但结果很奇怪。 第二个模型给了我93%的功率,第一个模型给了我100%的功率,这对我来说真的很奇怪,因为第一个模型是针对背景噪声而不是第一个模型进行训练的,理论上第二个模型应该比第一个模型给出更少的功率Speech recognition Microsoft自定义语音服务(CRIS),speech-recognition,microsoft-cognitive,Speech Recognition,Microsoft Cognitive,我正在和CRIS一起进行POC,我们正在构建一个语音机器人,并希望训练我们的机器人适应动态条件和实时场景 正如CRIS中提到的,我们可以通过建立一个定制的声学模型来克服背景噪声屏障,我想实现同样的效果 我根据约4.5小时的长度构建了2个自定义语音模型。 第一个模型基于没有背景噪声的干净音频文件。 第二个模型基于相同的音频文件,上面叠加了噪声 上下文中的语言是简单的英语,没有特定的词汇 这两个模型的数据集是相同的。唯一的区别是,在第二个模型的数据集中,所有文件都叠加了静态背景噪声 我根据叠加了噪音
因为我看不到CRIS在幕后发生了什么,我想知道CRIS在背景噪音下是否能提供有效的效果,或者它是否真的有效,如果是,那么当我多次尝试相同的结果时,我做错了什么。首先,93%的功率非常高,只有在你几乎听不懂音频的情况下才会发生 据我所知,您创建了3个数据集:
- 培训1:4.5小时干净的音频
- 培训2:4.5小时嘈杂的音频
- 测试1:几分钟的嘈杂音频
感谢您对定制语音服务的兴趣。这正是使用开源ASR的原因。至少你可以弄清楚背景上发生了什么。您可以从Microsoft Conversational Model开始,也可以从我使用Microsoft Conversational Model测试测试文件开始,我得到了97.2%的WER。