Python 反向传播:如何推导关于交叉熵损失的最终输出梯度?

Python 反向传播:如何推导关于交叉熵损失的最终输出梯度?,python,machine-learning,neural-network,backpropagation,Python,Machine Learning,Neural Network,Backpropagation,我试图训练一个简单的神经网络,但我不确定使用的backprop值是否正确 我使用2层NN(1个输入层,1个隐藏层和1个输出层),使用ReLU激活。这是我的h2 h1 = np.maximum(0, X.dot(W1) + b1.T) h2 = h1.dot(W2) + b2.T score = h2 在这种情况下,如果我要支持关于损失函数(交叉熵损失)的分数,我应该使用什么样的正确计算 我不确定这是否是一个编程问题…请尝试stackexchange。如果我们不知道你在说什么,或者你的编码问题到

我试图训练一个简单的神经网络,但我不确定使用的backprop值是否正确

我使用2层NN(1个输入层,1个隐藏层和1个输出层),使用ReLU激活。这是我的h2

h1 = np.maximum(0, X.dot(W1) + b1.T)
h2 = h1.dot(W2) + b2.T
score = h2

在这种情况下,如果我要支持关于损失函数(交叉熵损失)的分数,我应该使用什么样的正确计算

我不确定这是否是一个编程问题…请尝试stackexchange。如果我们不知道你在说什么,或者你的编码问题到底是什么,我们就帮不了你。简短的回答是“不”,它不是1(甚至通常也不是)。然而,我很难理解你的逻辑,你能重新表述你的问题吗?您是否经常询问dL/dy是否为1?或dL/dw_y=1(其中w_y是输出层中的权重)?这两个都不是真的。是的,你是对的。如果dL/dy不是1,那么如何计算它,特别是在这种情况下,如果损失是交叉熵的话?我不确定这是否是一个编程问题…试试stackexchange。如果我们不知道你在说什么,或者你的编码问题到底是什么,我们就帮不了你。简短的回答是“不”,它不是1(甚至通常也不是)。然而,我很难理解你的逻辑,你能重新表述你的问题吗?您是否经常询问dL/dy是否为1?或dL/dw_y=1(其中w_y是输出层中的权重)?这两个都不是真的。是的,你是对的。如果dL/dy不是1,那么如何计算它,特别是在这种情况下,如果损失是交叉熵的话?