Deep learning 在ADAM优化器的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速率和动量相关
我正在使用来训练神经网络,我在将函数中的参数与Adam论文中报告的参数相关联时遇到了问题。更具体地说,在Adam的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速度和动量相关?Deep learning 在ADAM优化器的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速率和动量相关,deep-learning,cntk,Deep Learning,Cntk,我正在使用来训练神经网络,我在将函数中的参数与Adam论文中报告的参数相关联时遇到了问题。更具体地说,在Adam的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速度和动量相关? Alpha是学习率 Beta1是动量参数 Beta2是动量参数的方差
- Alpha是学习率
- Beta1是动量参数
- Beta2是动量参数的方差