Python CNN语音分类预测正确与否_Python_Machine Learning_Deep Learning_Conv Neural Network_Classification

Python CNN语音分类预测正确与否

python machine-learning deep-learning

Python CNN语音分类预测正确与否,python,machine-learning,deep-learning,conv-neural-network,classification,Python,Machine Learning,Deep Learning,Conv Neural Network,Classification,所以我试着做一个语音分类器，挑战是预测说话的人是我还是其他人，我已经构建了一个简单的代码，可以将.wav文件转换成数组，这样我说话的所有音频文件数据集都将转换成数组，问题是，我是一个初学者，我不知道如何只使用一个变量来预测（我的声音），就像说对或错一样，我如何才能建立一个这样工作的神经网络（CNN）还是我应该使用另一种机器学习？而不是深入学习？我想在这个项目中使用深度学习。CNN也非常适合。您应该使用一维卷积，并设置许多过滤器来处理数据。与2D移动窗口不同，卷积将仅在时间维度中移动在这种情

所以我试着做一个语音分类器，挑战是预测说话的人是我还是其他人，我已经构建了一个简单的代码，可以将.wav文件转换成数组，这样我说话的所有音频文件数据集都将转换成数组，问题是，我是一个初学者，我不知道如何只使用一个变量来预测（我的声音），就像说对或错一样，我如何才能建立一个这样工作的神经网络（CNN）

还是我应该使用另一种机器学习？而不是深入学习？

我想在这个项目中使用深度学习。

CNN也非常适合。您应该使用一维卷积，并设置许多过滤器来处理数据。与2D移动窗口不同，卷积将仅在时间维度中移动

在这种情况下，使用原始音频信号可能比使用频率值更好。因为将使用卷积，神经网络可以简单地学习如何确定频率（毕竟，傅里叶变换就是这样做的）

Keras有Conv1D层来实现这一点

您应该尝试移动窗口的步幅和大小，以获得最佳结果。

原始音频信号是用数值表示还是用图像值表示？原始音频信号是用.wav或类似文件中的数值表示，表示声压（麦克风信号的类型）。