Speech recognition 为什么谷歌语音命令数据集的采样率为16kHz_Speech Recognition_Speech To Text_Tensorflow Datasets

Speech recognition 为什么谷歌语音命令数据集的采样率为16kHz

speech-recognition

Speech recognition 为什么谷歌语音命令数据集的采样率为16kHz,speech-recognition,speech-to-text,tensorflow-datasets,Speech Recognition,Speech To Text,Tensorflow Datasets,谷歌发布。我看到所有音频文件的采样率都是16kHz。这意味着任何8kHz及以上的信息都是不可靠的，人类听力范围为20Hz至20kHz。这对于语音识别非常关键，因为不是大多数，而是很多重要数据都在8khz到20khz的范围内，失去这些数据意味着语音识别的准确性和可靠性降低谷歌为什么选择16kHz？我错过什么了吗多谢各位这对于语音识别非常关键，因为并非大多数重要数据都在8khz到20khz的范围内实际上并非如此，许多实验表明，使用更高的采样率几乎没有任何改善。这就是为什么每个人都使用16kh

谷歌发布。我看到所有音频文件的采样率都是16kHz。这意味着任何8kHz及以上的信息都是不可靠的，人类听力范围为20Hz至20kHz。这对于语音识别非常关键，因为不是大多数，而是很多重要数据都在8khz到20khz的范围内，失去这些数据意味着语音识别的准确性和可靠性降低

谷歌为什么选择16kHz？我错过什么了吗

多谢各位

这对于语音识别非常关键，因为并非大多数重要数据都在8khz到20khz的范围内

实际上并非如此，许多实验表明，使用更高的采样率几乎没有任何改善。这就是为什么每个人都使用16khz。

我认为你是对的。在浏览这个[谷歌语音到文本基础][网页时，它说-如果你在编码源材料时有选择，请使用16000 Hz的采样率捕获音频。低于此值可能会影响语音识别的准确性，而较高的级别对语音识别质量没有明显的影响