Python 为RNN构建语音数据集

Python 为RNN构建语音数据集,python,tensorflow,keras,speech-recognition,mfcc,Python,Tensorflow,Keras,Speech Recognition,Mfcc,我正在尝试使用Tensorflow或Keras对语音数据进行RNN分类。分类器用于孤立词语音。也就是说,要将单个词声音提取到RNN进行分类,它必须对词声音进行分类。到目前为止,我所做的是提取声音的MFCC,由于每个声音的长度不同,因此生成的MFCC的长度也不同。例如,对于单词“1”,生成的MFCC的形状为(28,26),对于单词“2”,生成的MFCC的形状为(24,26)。语音的长度是变化的,我应该如何为RNN分类建模这些数据。在所有示例和教程中,输入数据的长度相同,但在我的示例中,输入数据的长

我正在尝试使用Tensorflow或Keras对语音数据进行RNN分类。分类器用于孤立词语音。也就是说,要将单个词声音提取到RNN进行分类,它必须对词声音进行分类。到目前为止,我所做的是提取声音的MFCC,由于每个声音的长度不同,因此生成的MFCC的长度也不同。例如,对于单词“1”,生成的MFCC的形状为(28,26),对于单词“2”,生成的MFCC的形状为(24,26)。语音的长度是变化的,我应该如何为RNN分类建模这些数据。在所有示例和教程中,输入数据的长度相同,但在我的示例中,输入数据的长度不同。如何对这类问题建模。我的X(输入)和Y(输出)变量应该是什么?

RNNs的一个关键优势是,要启用顺序输入,您不能一帧一帧地将MFCC输入到分类器中吗?每个帧需要有相同的长度,但无论如何都应该如此。关于设计机器学习模型的问题不适合堆栈溢出。你应该考虑如何从音频数据中提取固定大小的特征。一旦你有一个更具体的问题,它可能适合你