Speech recognition Microsoft自定义语音服务（CRIS）_Speech Recognition_Microsoft Cognitive

Speech recognition Microsoft自定义语音服务（CRIS）

speech-recognition

Speech recognition Microsoft自定义语音服务（CRIS）,speech-recognition,microsoft-cognitive,Speech Recognition,Microsoft Cognitive,我正在和CRIS一起进行POC，我们正在构建一个语音机器人，并希望训练我们的机器人适应动态条件和实时场景正如CRIS中提到的，我们可以通过建立一个定制的声学模型来克服背景噪声屏障，我想实现同样的效果我根据约4.5小时的长度构建了2个自定义语音模型。第一个模型基于没有背景噪声的干净音频文件。第二个模型基于相同的音频文件，上面叠加了噪声上下文中的语言是简单的英语，没有特定的词汇这两个模型的数据集是相同的。唯一的区别是，在第二个模型的数据集中，所有文件都叠加了静态背景噪声我根据叠加了噪音

我正在和CRIS一起进行POC，我们正在构建一个语音机器人，并希望训练我们的机器人适应动态条件和实时场景

正如CRIS中提到的，我们可以通过建立一个定制的声学模型来克服背景噪声屏障，我想实现同样的效果

我根据约4.5小时的长度构建了2个自定义语音模型。第一个模型基于没有背景噪声的干净音频文件。第二个模型基于相同的音频文件，上面叠加了噪声

上下文中的语言是简单的英语，没有特定的词汇

这两个模型的数据集是相同的。唯一的区别是，在第二个模型的数据集中，所有文件都叠加了静态背景噪声

我根据叠加了噪音的音频文件进行了准确度测试，但结果很奇怪。第二个模型给了我93%的功率，第一个模型给了我100%的功率，这对我来说真的很奇怪，因为第一个模型是针对背景噪声而不是第一个模型进行训练的，理论上第二个模型应该比第一个模型给出更少的功率

因为我看不到CRIS在幕后发生了什么，我想知道CRIS在背景噪音下是否能提供有效的效果，或者它是否真的有效，如果是，那么当我多次尝试相同的结果时，我做错了什么。

首先，93%的功率非常高，只有在你几乎听不懂音频的情况下才会发生

据我所知，您创建了3个数据集：

培训1：4.5小时干净的音频
培训2：4.5小时嘈杂的音频
测试1：几分钟的嘈杂音频

我假设训练_2和测试_1中的噪声相似。注意：您不能在训练_2中添加人工噪声，而在测试_1中使用真实噪声。培训数据必须代表测试数据

如果我没弄错的话，当你用训练1训练的模型解码测试1中的音频时，你会得到93%的功率。当您使用使用training_2训练的模型解码测试_1时，您将获得100%的WER。如果您使用我们的基线模型（Microsoft对话模型）解码测试_1，您会得到什么？您只需创建一个新的精度测试即可获得该值

如果您想分享更多详细信息和数据，请联系我们（链接位于页面底部）。我们可以更仔细地看看到底出了什么问题

感谢您对定制语音服务的兴趣。

这正是使用开源ASR的原因。至少你可以弄清楚背景上发生了什么。您可以从Microsoft Conversational Model开始，也可以从我使用Microsoft Conversational Model测试测试文件开始，我得到了97.2%的WER。