Tensorflow RNN LSTM中验证数据的标签错误率没有降低

Tensorflow RNN LSTM中验证数据的标签错误率没有降低,tensorflow,speech-recognition,lstm,recurrent-neural-network,Tensorflow,Speech Recognition,Lstm,Recurrent Neural Network,我正在用它来建立一个语音识别器。运行此命令后,我可以看到在200个历元之后,训练标签错误率从1.023降低到0.085,但验证标签错误率仅从1.347降低到0.843。之后,验证标签错误率不再降低 有人能建议对网络结构或超参数进行任何更改以提高验证标签错误率吗?我认为您只是过于合适了。网络学习训练集的微小细节(通常只是统计波动),然后无法概括,即验证集上的损失不再减少。您可以尝试降低模型的复杂性,以减少过度拟合,但最终会发生这种情况。当验证损失再次增加时,提前停止将有助于您停止培训。您还应该尝试

我正在用它来建立一个语音识别器。运行此命令后,我可以看到在200个历元之后,训练标签错误率从1.023降低到0.085,但验证标签错误率仅从1.347降低到0.843。之后,验证标签错误率不再降低


有人能建议对网络结构或超参数进行任何更改以提高验证标签错误率吗?

我认为您只是过于合适了。网络学习训练集的微小细节(通常只是统计波动),然后无法概括,即验证集上的损失不再减少。您可以尝试降低模型的复杂性,以减少过度拟合,但最终会发生这种情况。当验证损失再次增加时,提前停止将有助于您停止培训。您还应该尝试退出,或者l1或l2正则化。这可能有助于减少过度装配,但您可能无法完全摆脱它


所有这些事情你都得小心!如果调整hyperparameters以减少验证集上的错误,通常会降低模型的泛化能力。您可能需要一个测试集,该测试集仅在hyperparameters的训练和调优结束后使用,以测试您是否已经失去了这种泛化能力

我觉得你简直太合适了。网络学习训练集的微小细节(通常只是统计波动),然后无法概括,即验证集上的损失不再减少。您可以尝试降低模型的复杂性,以减少过度拟合,但最终会发生这种情况。当验证损失再次增加时,提前停止将有助于您停止培训。您还应该尝试退出,或者l1或l2正则化。这可能有助于减少过度装配,但您可能无法完全摆脱它

所有这些事情你都得小心!如果调整hyperparameters以减少验证集上的错误,通常会降低模型的泛化能力。您可能需要一个测试集,该测试集仅在hyperparameters的训练和调优结束后使用,以测试您是否已经失去了这种泛化能力