Neural network 添加softmax会显著更改重量更新_Neural Network_Deep Learning_Softmax_Attention Model

Neural network 添加softmax会显著更改重量更新

neural-network deep-learning

Neural network 添加softmax会显著更改重量更新,neural-network,deep-learning,softmax,attention-model,Neural Network,Deep Learning,Softmax,Attention Model,我有一个形式为N=W1*Tanh（W2*I）的神经网络，其中I是输入向量/矩阵。当我学习这些权重时，输出具有某种形式。然而，当我添加一个规范化层时，例如，N'=Softmax（W1*Tanh（W2*I））然而，在N'的输出向量中，单个元素接近1，而其余元素几乎为零。这种情况不仅适用于SoftMax（），而且适用于任何规格化层。这样的问题有没有标准的解决方案这是用户的行为。也许你需要的是一个S形函数。你所说的“特定形式”是什么意思？你为什么称之为问题？这对于分类中的规范化来说是完全正常的（也是期

我有一个形式为

N=W1*Tanh（W2*I）

的神经网络，其中I是输入向量/矩阵。当我学习这些权重时，输出具有某种形式。然而，当我添加一个规范化层时，例如，

N'=Softmax（W1*Tanh（W2*I））

然而，在N'的输出向量中，单个元素接近1，而其余元素几乎为零。这种情况不仅适用于SoftMax（），而且适用于任何规格化层。这样的问题有没有标准的解决方案

这是用户的行为。也许你需要的是一个S形函数。

你所说的“特定形式”是什么意思？你为什么称之为问题？这对于分类中的规范化来说是完全正常的（也是期望的！）行为。确切的应用是什么（有一个注意标记，但问题中没有提及注意）它是一个自我注意编码器-解码器模型（如上文所述，N是一个自我注意模型）@lejlot以某种形式，我的意思是输出向量具有某些特征（这是需要的）就像它一直增加到中间，然后交替地减少和增加（例如0.1,0.3,0.5,1.5,0.5,1,0.3,1.2）。但是，在添加Softmax层之后，我得到了如下结果-（0.001，0.001，0，0.01，0.998，0.001，0，0，…）。这意味着输出

有一个值比其他值大得多。将

值添加到问题中。即使进行简单的规范化，问题仍然存在，如yi=yi/yi的总和。这是所需的行为，也许您需要的是其他东西。你期望的结果是什么？