Python 为RNN构建语音数据集_Python_Tensorflow_Keras_Speech Recognition_Mfcc

Python 为RNN构建语音数据集

python tensorflow keras speech-recognition

Python 为RNN构建语音数据集,python,tensorflow,keras,speech-recognition,mfcc,Python,Tensorflow,Keras,Speech Recognition,Mfcc,我正在尝试使用Tensorflow或Keras对语音数据进行RNN分类。分类器用于孤立词语音。也就是说，要将单个词声音提取到RNN进行分类，它必须对词声音进行分类。到目前为止，我所做的是提取声音的MFCC，由于每个声音的长度不同，因此生成的MFCC的长度也不同。例如，对于单词“1”，生成的MFCC的形状为（28,26），对于单词“2”，生成的MFCC的形状为（24,26）。语音的长度是变化的，我应该如何为RNN分类建模这些数据。在所有示例和教程中，输入数据的长度相同，但在我的示例中，输入数据的长

我正在尝试使用Tensorflow或Keras对语音数据进行RNN分类。分类器用于孤立词语音。也就是说，要将单个词声音提取到RNN进行分类，它必须对词声音进行分类。到目前为止，我所做的是提取声音的MFCC，由于每个声音的长度不同，因此生成的MFCC的长度也不同。例如，对于单词“1”，生成的MFCC的形状为（28,26），对于单词“2”，生成的MFCC的形状为（24,26）。语音的长度是变化的，我应该如何为RNN分类建模这些数据。在所有示例和教程中，输入数据的长度相同，但在我的示例中，输入数据的长度不同。如何对这类问题建模。我的X（输入）和Y（输出）变量应该是什么？

RNNs的一个关键优势是，要启用顺序输入，您不能一帧一帧地将MFCC输入到分类器中吗？每个帧需要有相同的长度，但无论如何都应该如此。关于设计机器学习模型的问题不适合堆栈溢出。你应该考虑如何从音频数据中提取固定大小的特征。一旦你有一个更具体的问题，它可能适合你