Speech recognition 如何为语音识别准备数据集
我需要训练一个双向LSTM模型来识别离散语音(从0到9的单个数字)。我已经录制了100位发言者的语音。接下来我该怎么办?(假设我将它们分割成单独的.wav文件,每个文件包含一个数字)我将使用mfcc作为网络的功能Speech recognition 如何为语音识别准备数据集,speech-recognition,recurrent-neural-network,unsupervised-learning,Speech Recognition,Recurrent Neural Network,Unsupervised Learning,我需要训练一个双向LSTM模型来识别离散语音(从0到9的单个数字)。我已经录制了100位发言者的语音。接下来我该怎么办?(假设我将它们分割成单独的.wav文件,每个文件包含一个数字)我将使用mfcc作为网络的功能 此外,如果我要使用支持CTC(连接主义时间分类)的库,我想知道数据集的区别。您可以使用提供的答案/指导 根据您用来创建LSTM(pybrain、theano、keras)的库,您可以查看它们的文档 我建议使用Theano(二进制LSTM)或Keras(二进制LSTM),因为它们很容易理
此外,如果我要使用支持CTC(连接主义时间分类)的库,我想知道数据集的区别。您可以使用提供的答案/指导 根据您用来创建LSTM(pybrain、theano、keras)的库,您可以查看它们的文档 我建议使用Theano(二进制LSTM)或Keras(二进制LSTM),因为它们很容易理解,并且有很好的文档记录
希望这能有所帮助。嗨,你的模型是开源的吗?我可以看看吗?