Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/asp.net-mvc/14.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Speech recognition Microsoft自定义语音服务(CRIS)_Speech Recognition_Microsoft Cognitive - Fatal编程技术网

Speech recognition Microsoft自定义语音服务(CRIS)

Speech recognition Microsoft自定义语音服务(CRIS),speech-recognition,microsoft-cognitive,Speech Recognition,Microsoft Cognitive,我正在和CRIS一起进行POC,我们正在构建一个语音机器人,并希望训练我们的机器人适应动态条件和实时场景 正如CRIS中提到的,我们可以通过建立一个定制的声学模型来克服背景噪声屏障,我想实现同样的效果 我根据约4.5小时的长度构建了2个自定义语音模型。 第一个模型基于没有背景噪声的干净音频文件。 第二个模型基于相同的音频文件,上面叠加了噪声 上下文中的语言是简单的英语,没有特定的词汇 这两个模型的数据集是相同的。唯一的区别是,在第二个模型的数据集中,所有文件都叠加了静态背景噪声 我根据叠加了噪音

我正在和CRIS一起进行POC,我们正在构建一个语音机器人,并希望训练我们的机器人适应动态条件和实时场景

正如CRIS中提到的,我们可以通过建立一个定制的声学模型来克服背景噪声屏障,我想实现同样的效果

我根据约4.5小时的长度构建了2个自定义语音模型。 第一个模型基于没有背景噪声的干净音频文件。 第二个模型基于相同的音频文件,上面叠加了噪声

上下文中的语言是简单的英语,没有特定的词汇

这两个模型的数据集是相同的。唯一的区别是,在第二个模型的数据集中,所有文件都叠加了静态背景噪声

我根据叠加了噪音的音频文件进行了准确度测试,但结果很奇怪。 第二个模型给了我93%的功率,第一个模型给了我100%的功率,这对我来说真的很奇怪,因为第一个模型是针对背景噪声而不是第一个模型进行训练的,理论上第二个模型应该比第一个模型给出更少的功率


因为我看不到CRIS在幕后发生了什么,我想知道CRIS在背景噪音下是否能提供有效的效果,或者它是否真的有效,如果是,那么当我多次尝试相同的结果时,我做错了什么。

首先,93%的功率非常高,只有在你几乎听不懂音频的情况下才会发生

据我所知,您创建了3个数据集:

  • 培训1:4.5小时干净的音频
  • 培训2:4.5小时嘈杂的音频
  • 测试1:几分钟的嘈杂音频
我假设训练_2和测试_1中的噪声相似。注意:您不能在训练_2中添加人工噪声,而在测试_1中使用真实噪声。培训数据必须代表测试数据

如果我没弄错的话,当你用训练1训练的模型解码测试1中的音频时,你会得到93%的功率。当您使用使用training_2训练的模型解码测试_1时,您将获得100%的WER。如果您使用我们的基线模型(Microsoft对话模型)解码测试_1,您会得到什么?您只需创建一个新的精度测试即可获得该值

如果您想分享更多详细信息和数据,请联系我们(链接位于页面底部)。我们可以更仔细地看看到底出了什么问题


感谢您对定制语音服务的兴趣。

这正是使用开源ASR的原因。至少你可以弄清楚背景上发生了什么。您可以从Microsoft Conversational Model开始,也可以从我使用Microsoft Conversational Model测试测试文件开始,我得到了97.2%的WER。