Python CNN语音分类预测正确与否

Python CNN语音分类预测正确与否,python,machine-learning,deep-learning,conv-neural-network,classification,Python,Machine Learning,Deep Learning,Conv Neural Network,Classification,所以我试着做一个语音分类器,挑战是预测说话的人是我还是其他人,我已经构建了一个简单的代码,可以将.wav文件转换成数组,这样我说话的所有音频文件数据集都将转换成数组,问题是,我是一个初学者,我不知道如何只使用一个变量来预测(我的声音),就像说对或错一样,我如何才能建立一个这样工作的神经网络(CNN) 还是我应该使用另一种机器学习?而不是深入学习? 我想在这个项目中使用深度学习。CNN也非常适合。您应该使用一维卷积,并设置许多过滤器来处理数据。与2D移动窗口不同,卷积将仅在时间维度中移动 在这种情

所以我试着做一个语音分类器,挑战是预测说话的人是我还是其他人,我已经构建了一个简单的代码,可以将.wav文件转换成数组,这样我说话的所有音频文件数据集都将转换成数组,问题是,我是一个初学者,我不知道如何只使用一个变量来预测(我的声音),就像说对或错一样,我如何才能建立一个这样工作的神经网络(CNN)

还是我应该使用另一种机器学习?而不是深入学习?
我想在这个项目中使用深度学习。

CNN也非常适合。您应该使用一维卷积,并设置许多过滤器来处理数据。与2D移动窗口不同,卷积将仅在时间维度中移动

在这种情况下,使用原始音频信号可能比使用频率值更好。因为将使用卷积,神经网络可以简单地学习如何确定频率(毕竟,傅里叶变换就是这样做的)

Keras有Conv1D层来实现这一点


您应该尝试移动窗口的步幅和大小,以获得最佳结果。

原始音频信号是用数值表示还是用图像值表示?原始音频信号是用.wav或类似文件中的数值表示,表示声压(麦克风信号的类型)。