Deep learning 在训练自动语音识别模型时降低单词错误率

Deep learning 在训练自动语音识别模型时降低单词错误率,deep-learning,speech-recognition,speech-to-text,loss,Deep Learning,Speech Recognition,Speech To Text,Loss,我正在训练一个语音到文本的模型。第一个历元的WER为0.33,第二个历元的WER仍然相同,但训练损失增加,而验证损失减少 除了降低学习率,还可以做些什么来让模型学习,至少是过度拟合 增加训练数据量,这是唯一的主要因素。与适当的体系结构和庞大的数据库相比,所有这些学习速度和超参数都很小。增加训练数据量,这是唯一的主要因素。与适当的体系结构和庞大的数据库相比,所有这些学习速度和超参数都很小。Ok。我使用的是deepspeech2,所以架构应该足够好。增加数据量是我下一步计划做的事情。但为什么模型没有

我正在训练一个语音到文本的模型。第一个历元的WER为0.33,第二个历元的WER仍然相同,但训练损失增加,而验证损失减少


除了降低学习率,还可以做些什么来让模型学习,至少是过度拟合

增加训练数据量,这是唯一的主要因素。与适当的体系结构和庞大的数据库相比,所有这些学习速度和超参数都很小。

增加训练数据量,这是唯一的主要因素。与适当的体系结构和庞大的数据库相比,所有这些学习速度和超参数都很小。

Ok。我使用的是deepspeech2,所以架构应该足够好。增加数据量是我下一步计划做的事情。但为什么模型没有过度拟合呢?为什么列车损失增加了(大约20%)?Deepspeech非常古老,不是很好的架构,wav2letter卷积1要好得多。至于不过度拟合,由于小数据集模型收敛到局部最小值,它们可能根本无法正确收敛。您可以从500小时左右的数据开始合理的端到端学习。我使用的是deepspeech2,所以架构应该足够好。增加数据量是我下一步计划做的事情。但为什么模型没有过度拟合呢?为什么列车损失增加了(大约20%)?Deepspeech非常古老,不是很好的架构,wav2letter卷积1要好得多。至于不过度拟合,由于小数据集模型收敛到局部最小值,它们可能根本无法正确收敛。您可以从500小时左右的数据开始合理的端到端学习。