Neural network 添加softmax会显著更改重量更新

Neural network 添加softmax会显著更改重量更新,neural-network,deep-learning,softmax,attention-model,Neural Network,Deep Learning,Softmax,Attention Model,我有一个形式为N=W1*Tanh(W2*I)的神经网络,其中I是输入向量/矩阵。当我学习这些权重时,输出具有某种形式。然而,当我添加一个规范化层时,例如,N'=Softmax(W1*Tanh(W2*I))然而,在N'的输出向量中,单个元素接近1,而其余元素几乎为零。这种情况不仅适用于SoftMax(),而且适用于任何规格化层。这样的问题有没有标准的解决方案 这是用户的行为。也许你需要的是一个S形函数。你所说的“特定形式”是什么意思?你为什么称之为问题?这对于分类中的规范化来说是完全正常的(也是期

我有一个形式为
N=W1*Tanh(W2*I)
的神经网络,其中I是输入向量/矩阵。当我学习这些权重时,输出具有某种形式。然而,当我添加一个规范化层时,例如,
N'=Softmax(W1*Tanh(W2*I))
然而,在N'的输出向量中,单个元素接近1,而其余元素几乎为零。这种情况不仅适用于SoftMax(),而且适用于任何规格化层。这样的问题有没有标准的解决方案

这是用户的行为。也许你需要的是一个S形函数。

你所说的“特定形式”是什么意思?你为什么称之为问题?这对于分类中的规范化来说是完全正常的(也是期望的!)行为。确切的应用是什么(有一个注意标记,但问题中没有提及注意)它是一个自我注意编码器-解码器模型(如上文所述,N是一个自我注意模型)@lejlot以某种形式,我的意思是输出向量具有某些特征(这是需要的)就像它一直增加到中间,然后交替地减少和增加(例如0.1,0.3,0.5,1.5,0.5,1,0.3,1.2)。但是,在添加Softmax层之后,我得到了如下结果-(0.001,0.001,0,0.01,0.998,0.001,0,0,…)。这意味着输出
N
有一个值比其他值大得多。将
N
值添加到问题中。即使进行简单的规范化,问题仍然存在,如yi=yi/yi的总和。这是所需的行为,也许您需要的是其他东西。你期望的结果是什么?