Machine learning 使用交叉熵函数时,对于未连接到输出层的权重,sigmoid函数是否会影响减速?

Machine learning 使用交叉熵函数时,对于未连接到输出层的权重,sigmoid函数是否会影响减速?,machine-learning,neural-network,backpropagation,Machine Learning,Neural Network,Backpropagation,我自己一直在读神经网络的误差函数。说明使用交叉熵函数可避免减速(即,如果预测输出远离目标输出,则网络学习速度更快)。作者指出,连接到输出层的权重将忽略sigmoid素数函数,这将导致减速 但是后面的重量呢?通过推导(当使用二次误差函数时,我得到了相同的推导),我发现sigmoid素数项出现在这些权重中。这不会导致经济放缓吗?(可能我推导得不正确?是的,除了最后一层外,所有乙状结肠层的学习速度都会减慢。我猜你的推导是正确的,实际上二次误差,西格莫德+二进制交叉熵和软最大+软最大交叉熵共享反向传播公

我自己一直在读神经网络的误差函数。说明使用交叉熵函数可避免减速(即,如果预测输出远离目标输出,则网络学习速度更快)。作者指出,连接到输出层的权重将忽略sigmoid素数函数,这将导致减速


但是后面的重量呢?通过推导(当使用二次误差函数时,我得到了相同的推导),我发现sigmoid素数项出现在这些权重中。这不会导致经济放缓吗?(可能我推导得不正确?

是的,除了最后一层外,所有乙状结肠层的学习速度都会减慢。我猜你的推导是正确的,实际上
二次误差
西格莫德+二进制交叉熵
软最大+软最大交叉熵
共享反向传播公式
y_I-y
形式。请参见以下三个损失的代码: