Speech recognition Microsoft语音平台-采样率和位深度

Speech recognition Microsoft语音平台-采样率和位深度,speech-recognition,sampling,wave,microsoft-speech-platform,Speech Recognition,Sampling,Wave,Microsoft Speech Platform,如果音频的采样率和比特深度与系统的训练数据相匹配,则识别结果最好 那么,有人知道微软语音平台(最新的,如果重要的话)中使用的准确采样率和/或位深度(和/或立体声/单声道)吗?如果是的话,你还记得你从哪里得到的信息吗 请注意,我使用的是MS语音平台,而不是SAPI。除非两者都使用相同的训练数据,否则这就不一样了。准确地说,我用这个: 我的第一次尝试是基于页面上给出的C++代码示例。p> Microsoft.Speech SR引擎不需要训练(),并且对采样率相对不敏感(可以在采样率大于8 KHz的

如果音频的采样率和比特深度与系统的训练数据相匹配,则识别结果最好

那么,有人知道微软语音平台(最新的,如果重要的话)中使用的准确采样率和/或位深度(和/或立体声/单声道)吗?如果是的话,你还记得你从哪里得到的信息吗

请注意,我使用的是MS语音平台,而不是SAPI。除非两者都使用相同的训练数据,否则这就不一样了。准确地说,我用这个:


我的第一次尝试是基于页面上给出的C++代码示例。p> Microsoft.Speech SR引擎不需要训练(),并且对采样率相对不敏感(可以在采样率大于8 KHz的情况下工作)。16位音频是首选,但我相信它将与8位音频一起工作。

我找不到任何有关采样率的信息,但似乎位深度实际上是8位的(此后可能发生了变化)

引用列表中支持的音频格式:

语音平台对大于8位的音频进行下采样 决议


您可以提供8位的倍数的任何位深度(无论如何都是如此),因为不会因舍入而导致精度损失(与采样率不同,分辨率也不会出现混叠)。

它可能适用于几乎所有情况,但据我所知,语音识别系统在使用与训练相同的采样率/位深度时效果最好。为了澄清:我不打算培训系统,我会尝试确定要识别的材料的最佳格式。Microsoft.Speech是建立在8 KHz 16位音频之上的。也就是说,Microsoft.Speech对音频质量非常不敏感。我们对样本材料进行了一些测试-似乎我们的最佳设置是16 kHz 16位。这让我有点吃惊。你怎么知道萨皮女士是建立在什么基础上的?我在任何地方都没有找到那个信息。你能给我一个链接吗?哎呀。是的,这就解释了。非常感谢。