Speech recognition Microsoft语音平台-采样率和位深度_Speech Recognition_Sampling_Wave_Microsoft Speech Platform

Speech recognition Microsoft语音平台-采样率和位深度

speech-recognition

Speech recognition Microsoft语音平台-采样率和位深度,speech-recognition,sampling,wave,microsoft-speech-platform,Speech Recognition,Sampling,Wave,Microsoft Speech Platform,如果音频的采样率和比特深度与系统的训练数据相匹配，则识别结果最好那么，有人知道微软语音平台（最新的，如果重要的话）中使用的准确采样率和/或位深度（和/或立体声/单声道）吗？如果是的话，你还记得你从哪里得到的信息吗请注意，我使用的是MS语音平台，而不是SAPI。除非两者都使用相同的训练数据，否则这就不一样了。准确地说，我用这个：我的第一次尝试是基于页面上给出的C++代码示例。p> Microsoft.Speech SR引擎不需要训练（），并且对采样率相对不敏感（可以在采样率大于8 KHz的

如果音频的采样率和比特深度与系统的训练数据相匹配，则识别结果最好

那么，有人知道微软语音平台（最新的，如果重要的话）中使用的准确采样率和/或位深度（和/或立体声/单声道）吗？如果是的话，你还记得你从哪里得到的信息吗

请注意，我使用的是MS语音平台，而不是SAPI。除非两者都使用相同的训练数据，否则这就不一样了。准确地说，我用这个：

我的第一次尝试是基于页面上给出的C++代码示例。p> Microsoft.Speech SR引擎不需要训练（），并且对采样率相对不敏感（可以在采样率大于8 KHz的情况下工作）。16位音频是首选，但我相信它将与8位音频一起工作。

我找不到任何有关采样率的信息，但似乎位深度实际上是8位的（此后可能发生了变化）

引用列表中支持的音频格式：

语音平台对大于8位的音频进行下采样决议

您可以提供8位的倍数的任何位深度（无论如何都是如此），因为不会因舍入而导致精度损失（与采样率不同，分辨率也不会出现混叠）。

它可能适用于几乎所有情况，但据我所知，语音识别系统在使用与训练相同的采样率/位深度时效果最好。为了澄清：我不打算培训系统，我会尝试确定要识别的材料的最佳格式。Microsoft.Speech是建立在8 KHz 16位音频之上的。也就是说，Microsoft.Speech对音频质量非常不敏感。我们对样本材料进行了一些测试-似乎我们的最佳设置是16 kHz 16位。这让我有点吃惊。你怎么知道萨皮女士是建立在什么基础上的？我在任何地方都没有找到那个信息。你能给我一个链接吗？哎呀。是的，这就解释了。非常感谢。