Audio 如果我使用不同采样率的音频数据集进行深度学习,会有什么问题吗?

Audio 如果我使用不同采样率的音频数据集进行深度学习,会有什么问题吗?,audio,deep-learning,Audio,Deep Learning,我有两个音频数据集用于音频检测,如训练和测试。 一种是采样率为8kHz、16位、单声道、7秒的wav文件。 另一个是wav文件,采样率为44.1kHz,16位,单声道,10秒。 我把它们放在一个文件夹中,80%用于培训,10%用于验证,10%用于测试。 但我的朋友说,如果我使用不同采样率的数据集,可能会导致错误的结果。 这对我来说似乎有道理,但我不确定为什么我不能使用它(他也不知道原因)。 下面是我的问题。 1) 使用两个采样率不同的音频数据集会导致音频检测结果错误吗? 2) 如果不是,我可以使

我有两个音频数据集用于音频检测,如训练和测试。
一种是采样率为8kHz、16位、单声道、7秒的wav文件。
另一个是wav文件,采样率为44.1kHz,16位,单声道,10秒。
我把它们放在一个文件夹中,80%用于培训,10%用于验证,10%用于测试。
但我的朋友说,如果我使用不同采样率的数据集,可能会导致错误的结果。
这对我来说似乎有道理,但我不确定为什么我不能使用它(他也不知道原因)。
下面是我的问题。
1) 使用两个采样率不同的音频数据集会导致音频检测结果错误吗?

2) 如果不是,我可以使用这些数据集进行培训和评估?(因为很难找到其他数据集)

您应该使用在“生产系统”上运行的任何采样率。婴儿哭声几乎不需要44kHz,我认为8kHz就可以了。即使宝宝的频率超过4千赫,大部分电能也会在下面。你对理解哭声背后的微妙之处不感兴趣,而只是察觉哭声

不过,不妨做一点实验,从互联网上下载高保真哭泣婴儿的选择,然后分析频谱。然后将采样频率降低到8 kHz,看看/听听它会产生多大的差异。我推荐Audacity,Python有一些很好的绘图库工具。此外,我还制作了一个开源在线工具来帮助在音频中使用ML(,)。您可能想看看婴儿哭声和碎玻璃之间的音频功能有多相似

最后但并非最不重要的一点是,拒绝80/10/10分割的诱惑,很可能你会过度适应数据。我建议留出至少30%的数据进行测试,如果可能的话,留出60%。如果您觉得“但我没有那么多数据可供测试”,请执行以下一项或多项操作:

  • 收集更多数据
  • 使用需要较少数据的算法
  • 使用启发式

制造不通用的ML系统太容易了。最后一个提示:确保您不会在不同的环境中得到相同的婴儿。

您应该使用您将在“生产系统”上运行的任何采样率。婴儿哭声几乎不需要44kHz,我认为8kHz就可以了。即使宝宝的频率超过4千赫,大部分电能也会在下面。你对理解哭声背后的微妙之处不感兴趣,而只是察觉哭声

不过,不妨做一点实验,从互联网上下载高保真哭泣婴儿的选择,然后分析频谱。然后将采样频率降低到8 kHz,看看/听听它会产生多大的差异。我推荐Audacity,Python有一些很好的绘图库工具。此外,我还制作了一个开源在线工具来帮助在音频中使用ML(,)。您可能想看看婴儿哭声和碎玻璃之间的音频功能有多相似

最后但并非最不重要的一点是,拒绝80/10/10分割的诱惑,很可能你会过度适应数据。我建议留出至少30%的数据进行测试,如果可能的话,留出60%。如果您觉得“但我没有那么多数据可供测试”,请执行以下一项或多项操作:

  • 收集更多数据
  • 使用需要较少数据的算法
  • 使用启发式

制造不通用的ML系统太容易了。最后一个提示:确保您不会在不同的设置中得到相同的婴儿。

您希望使用系统的音频采样率是多少(即运行预测)?我希望使用44.1kHz来制作音频检测系统。实际上我正在制作婴儿哭闹检测系统。8kHz是婴儿声音,44.1kHz是玻璃、汽车等。但很难找到44.1kHz的婴儿声音,所以我只使用8kHz声音。您希望使用系统(即运行预测)的音频采样率是多少?我希望使用44.1kHz来制作音频检测系统。实际上我正在制作婴儿哭闹检测系统。8kHz是婴儿声音,44.1kHz是玻璃、汽车等。但很难找到44.1kHz婴儿声音,所以我只使用8kHz声音。很抱歉回复太晚。我真的很感谢你的建议和开源:)设置至少30%的测试数据非常有趣,我认为测试集必须是10%或更少。我会试试你的建议。再次感谢您。很抱歉回复晚了。我真的很感谢你的建议和开源:)设置至少30%的测试数据非常有趣,我认为测试集必须是10%或更少。我会试试你的建议。再次感谢你。