Neural network 损失不减少:在几次迭代后的训练期间,所有sigmoid值都接近0
我正在训练一个网络,使用LSTM层和CNN层的联合损失来检测句子相似性(释义检测)。最终的成本只是这两个层面的个人损失(可能性损失)的总和 两个句子相似的概率:Neural network 损失不减少:在几次迭代后的训练期间,所有sigmoid值都接近0,neural-network,deep-learning,convolution,lstm,Neural Network,Deep Learning,Convolution,Lstm,我正在训练一个网络,使用LSTM层和CNN层的联合损失来检测句子相似性(释义检测)。最终的成本只是这两个层面的个人损失(可能性损失)的总和 两个句子相似的概率:sigmoid(vec1TWvec2+b),其中vec1和vec2是两个句子的向量表示,W和b是训练期间要学习的权重和偏差 最终损耗=LSTM层损耗+CNN层损耗 当我在32个随机句子的样本数据上训练系统时,我的模型收敛得很好 然而,在使用完整的数据时,数据丢失变得停滞,并且 sigmoid值非常接近于0 我的网络参数: 学习率为0.0
sigmoid(vec1TWvec2+b)
,其中vec1和vec2是两个句子的向量表示,W和b是训练期间要学习的权重和偏差
最终损耗=LSTM层损耗+CNN层损耗
当我在32个随机句子的样本数据上训练系统时,我的模型收敛得很好
然而,在使用完整的数据时,数据丢失变得停滞,并且
sigmoid值非常接近于0
我的网络参数:
- 学习率为0.01或0.001的梯度下降优化器李>
- 隐藏状态暗200李>
- 单词嵌入dim300
- 按范数将渐变剪裁为5
- 1层卷积,200个内核,然后是1层最大池