Machine learning 神经网络中保持随机初始权值的ADADELTA算法
我正在尝试使用ADADELTA算法在MNIST数据集上训练一个2隐层tanh神经网络 以下是我的设置参数:Machine learning 神经网络中保持随机初始权值的ADADELTA算法,machine-learning,neural-network,gradient-descent,Machine Learning,Neural Network,Gradient Descent,我正在尝试使用ADADELTA算法在MNIST数据集上训练一个2隐层tanh神经网络 以下是我的设置参数: Tanh激活函数 2个隐藏层,784个单元(与输入单元的数量相同) 我正在使用输出层上具有交叉熵损失的softmax 我随机初始化了fanin为~15的权重,以及标准偏差为1/sqrt(15)的高斯分布权重 我使用的是10%的小批量,50%的退出率 我使用的是ADADELTA的默认参数(rho=0.95,epsilon=1e-6) 我已经检查了我的导数和自动微分 如果我运行ADADEL
- Tanh激活函数
- 2个隐藏层,784个单元(与输入单元的数量相同)
- 我正在使用输出层上具有交叉熵损失的softmax
- 我随机初始化了fanin为~15的权重,以及标准偏差为1/sqrt(15)的高斯分布权重
- 我使用的是10%的小批量,50%的退出率
- 我使用的是ADADELTA的默认参数(rho=0.95,epsilon=1e-6)
- 我已经检查了我的导数和自动微分
发生了什么?您似乎认为ADADDelta是问题所在,但您没有说明是否使用其他方法进行了测试。您是否尝试过另一种方法,但没有出现此问题?我尝试了固定学习率SGD。具有较高的学习率,收敛后发散为像素噪声。由于学习率较低,它花了太长时间才能收敛。我不认为ADADELTA本身就是问题,但它应该可以消除很多学习率不正确的失败案例。