Neural network 神经网络-每个权重的不同学习率_Neural Network_Gradient Descent_Learning Rate

Neural network 神经网络-每个权重的不同学习率

neural-network

Neural network 神经网络-每个权重的不同学习率,neural-network,gradient-descent,learning-rate,Neural Network,Gradient Descent,Learning Rate,关于神经网络梯度下降背后的理论，我没有什么问题第一个问题：假设我们有5个权重，每个权重对应于5个特征。现在我们要计算梯度。算法内部是如何实现的？它是否接受第一个权重（=W1）并尝试稍微增加（或减少）一点，然后在完成后，转到第二个权重？或者，通过同时改变1个以上的权重，它是否能以不同的方式更有效地实现这一点第二个问题：如果功能1比功能2重要得多，那么与W2相比，W1的相同变化（单位%）对减肥的影响更大，那么对每个体重有不同的学习率不是更好吗？如果我们只有一个学习率，我们只考虑最有影响力的权重来

关于神经网络梯度下降背后的理论，我没有什么问题

第一个问题：假设我们有5个权重，每个权重对应于5个特征。现在我们要计算梯度。算法内部是如何实现的？它是否接受第一个权重（=W1）并尝试稍微增加（或减少）一点，然后在完成后，转到第二个权重？或者，通过同时改变1个以上的权重，它是否能以不同的方式更有效地实现这一点

第二个问题：如果功能1比功能2重要得多，那么与W2相比，W1的相同变化（单位%）对减肥的影响更大，那么对每个体重有不同的学习率不是更好吗？如果我们只有一个学习率，我们只考虑最有影响力的权重来设置它，对吗？

对于问题1：

它只是做梯度下降。你不能独立地摆动权重：你将权重叠加在一个向量/矩阵/张量

计算和增量

delta_W

中，它本身（分别）是一个向量/矩阵/张量。一旦你知道这个增量，你就可以一次将它应用到所有的权重上

关于问题2：

已经有许多算法可以根据参数调整学习速率。参见示例和。这些通常（粗略地说）基于参数介入的频率

关于您描述的“重要性”：

因此，与W2相比，W1的相同变化（以%为单位）对减肥的影响更大，对每个体重有不同的学习率不是更好吗

你只是在描述梯度！在这种情况下，

W1

比

W2

具有更高的梯度，可以说，它已经被更新为更高的权重。除非你有更多关于它的作用的信息（例如，上面提到的频率），否则独立地研究它的学习率是没有多大意义的