Deep learning 在ADAM优化器的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速率和动量相关

Deep learning 在ADAM优化器的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速率和动量相关,deep-learning,cntk,Deep Learning,Cntk,我正在使用来训练神经网络,我在将函数中的参数与Adam论文中报告的参数相关联时遇到了问题。更具体地说,在Adam的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速度和动量相关? Alpha是学习率 Beta1是动量参数 Beta2是动量参数的方差

我正在使用来训练神经网络,我在将函数中的参数与Adam论文中报告的参数相关联时遇到了问题。更具体地说,在Adam的CNTK实现中,参数alpha、beta1、beta2和epsilon如何与学习速度和动量相关?

  • Alpha是学习率
  • Beta1是动量参数
  • Beta2是动量参数的方差