Python AdamOptimizer的随机性如何?

Python AdamOptimizer的随机性如何?,python,tensorflow,Python,Tensorflow,假设: 我以相同的顺序将数据输入到10 AdamOptimizer 所有AdamOptimizer都试图最小化相同的目标函数 对于10 AdamOptimizer,变量的初始值不同 一些变量(称为集合b)应该对目标函数的最小值没有影响。但在极小化之前,我不知道哪些变量在集合b中 目标函数是确定性的 集合b中的变量对于10最小值会有不同的值吗 我试图在GPU上同时运行10最小化。 训练数据很大 Adam优化器的随机性如何 结果y中的随机性不是Adam为超参数的固定值带来的。它基于参数W和偏差bTe

假设:

  • 我以相同的顺序将数据输入到10 AdamOptimizer
  • 所有AdamOptimizer都试图最小化相同的目标函数
  • 对于10 AdamOptimizer,变量的初始值不同
  • 一些变量(称为集合b)应该对目标函数的最小值没有影响。但在极小化之前,我不知道哪些变量在集合b中
  • 目标函数是确定性的
  • 集合b中的变量对于10最小值会有不同的值吗

    我试图在GPU上同时运行10最小化。 训练数据很大

    Adam优化器的随机性如何

    结果
    y
    中的随机性不是Adam为超参数的固定值带来的。它基于参数
    W
    和偏差
    b
    TensorFlow填充
    np.random.seed(0)
    tf.set\u random\u seed(0)

    如中所述,它是RMSProp与带有动量的梯度下降相结合

    如果您查看以下内容:

    • lr:float>=0。学习率
    • beta_1:浮动,0
    • beta_2:浮动,0
    • ε:浮点>=0。模糊因素。如果没有,则默认为K.epsilon()
    • 衰减:浮点>=0。学习率在每次更新中都会衰减
    • amsgrad:布尔型。是否应用“关于Adam和Beyond的收敛性”一文中该算法的AMSGrad变体
    有很多,默认情况下:

    __init__(
        lr=0.001,
        beta_1=0.9,
        beta_2=0.999,
        epsilon=None,
        decay=0.0,
        amsgrad=False, **kwargs
    )
    

    对于固定的默认超参数集,结果将是相同的。

    是否尝试?量一下?你试过自己做吗?如果你亲自尝试,你的问题似乎很容易回答。目前,看起来我们要么自己尝试,然后告诉你结果,要么,如果你对Adam优化器了解很多,根据知识和经验回答。在训练数据或变量中添加白噪声会使集合b中的变量随机漂移。问题是我无法预测最小化开始时白噪声的强度。Adam是否已经将具有自适应强度的白噪声添加到训练数据中?否,但检查参数的影响,这会影响计算。