Neural network 损失不减少:在几次迭代后的训练期间,所有sigmoid值都接近0

Neural network 损失不减少:在几次迭代后的训练期间,所有sigmoid值都接近0,neural-network,deep-learning,convolution,lstm,Neural Network,Deep Learning,Convolution,Lstm,我正在训练一个网络,使用LSTM层和CNN层的联合损失来检测句子相似性(释义检测)。最终的成本只是这两个层面的个人损失(可能性损失)的总和 两个句子相似的概率:sigmoid(vec1TWvec2+b),其中vec1和vec2是两个句子的向量表示,W和b是训练期间要学习的权重和偏差 最终损耗=LSTM层损耗+CNN层损耗 当我在32个随机句子的样本数据上训练系统时,我的模型收敛得很好 然而,在使用完整的数据时,数据丢失变得停滞,并且 sigmoid值非常接近于0 我的网络参数: 学习率为0.0

我正在训练一个网络,使用LSTM层和CNN层的联合损失来检测句子相似性(释义检测)。最终的成本只是这两个层面的个人损失(可能性损失)的总和

两个句子相似的概率:
sigmoid(vec1TWvec2+b)
,其中vec1和vec2是两个句子的向量表示,W和b是训练期间要学习的权重和偏差

最终损耗=LSTM层损耗+CNN层损耗

当我在32个随机句子的样本数据上训练系统时,我的模型收敛得很好

然而,在使用完整的数据时,数据丢失变得停滞,并且 sigmoid值非常接近于0

我的网络参数:

  • 学习率为0.01或0.001的梯度下降优化器
  • 隐藏状态暗200
  • 单词嵌入dim300
  • 按范数将渐变剪裁为5
  • 1层卷积,200个内核,然后是1层最大池
有谁能给我一些提示,说明在完整数据上进行培训可能会出现什么问题,即使它在小数据集上工作?有消失梯度的问题吗