Neural network 损失不减少：在几次迭代后的训练期间，所有sigmoid值都接近0_Neural Network_Deep Learning_Convolution_Lstm

Neural network 损失不减少：在几次迭代后的训练期间，所有sigmoid值都接近0

neural-network deep-learning

Neural network 损失不减少：在几次迭代后的训练期间，所有sigmoid值都接近0,neural-network,deep-learning,convolution,lstm,Neural Network,Deep Learning,Convolution,Lstm,我正在训练一个网络，使用LSTM层和CNN层的联合损失来检测句子相似性（释义检测）。最终的成本只是这两个层面的个人损失（可能性损失）的总和两个句子相似的概率：sigmoid（vec1TWvec2+b），其中vec1和vec2是两个句子的向量表示，W和b是训练期间要学习的权重和偏差最终损耗=LSTM层损耗+CNN层损耗当我在32个随机句子的样本数据上训练系统时，我的模型收敛得很好然而，在使用完整的数据时，数据丢失变得停滞，并且 sigmoid值非常接近于0 我的网络参数：学习率为0.0

我正在训练一个网络，使用LSTM层和CNN层的联合损失来检测句子相似性（释义检测）。最终的成本只是这两个层面的个人损失（可能性损失）的总和

两个句子相似的概率：

sigmoid（vec1TWvec2+b）

，其中vec1和vec2是两个句子的向量表示，W和b是训练期间要学习的权重和偏差

最终损耗=LSTM层损耗+CNN层损耗

当我在32个随机句子的样本数据上训练系统时，我的模型收敛得很好

然而，在使用完整的数据时，数据丢失变得停滞，并且 sigmoid值非常接近于0

我的网络参数：

学习率为0.01或0.001的梯度下降优化器
隐藏状态暗200
单词嵌入dim300
按范数将渐变剪裁为5
1层卷积，200个内核，然后是1层最大池

有谁能给我一些提示，说明在完整数据上进行培训可能会出现什么问题，即使它在小数据集上工作？有消失梯度的问题吗