Speech recognition 为什么谷歌语音命令数据集的采样率为16kHz

Speech recognition 为什么谷歌语音命令数据集的采样率为16kHz,speech-recognition,speech-to-text,tensorflow-datasets,Speech Recognition,Speech To Text,Tensorflow Datasets,谷歌发布。我看到所有音频文件的采样率都是16kHz。这意味着任何8kHz及以上的信息都是不可靠的,人类听力范围为20Hz至20kHz。这对于语音识别非常关键,因为不是大多数,而是很多重要数据都在8khz到20khz的范围内,失去这些数据意味着语音识别的准确性和可靠性降低 谷歌为什么选择16kHz?我错过什么了吗 多谢各位 这对于语音识别非常关键,因为并非大多数重要数据都在8khz到20khz的范围内 实际上并非如此,许多实验表明,使用更高的采样率几乎没有任何改善。这就是为什么每个人都使用16kh

谷歌发布。我看到所有音频文件的采样率都是16kHz。这意味着任何8kHz及以上的信息都是不可靠的,人类听力范围为20Hz至20kHz。这对于语音识别非常关键,因为不是大多数,而是很多重要数据都在8khz到20khz的范围内,失去这些数据意味着语音识别的准确性和可靠性降低

谷歌为什么选择16kHz?我错过什么了吗

多谢各位

这对于语音识别非常关键,因为并非大多数重要数据都在8khz到20khz的范围内


实际上并非如此,许多实验表明,使用更高的采样率几乎没有任何改善。这就是为什么每个人都使用16khz。

我认为你是对的。在浏览这个[谷歌语音到文本基础][网页时,它说-如果你在编码源材料时有选择,请使用16000 Hz的采样率捕获音频。低于此值可能会影响语音识别的准确性,而较高的级别对语音识别质量没有明显的影响