Tensorflow LSTM上的损耗从一个低值开始,缓慢减小,直到停止

Tensorflow LSTM上的损耗从一个低值开始,缓慢减小,直到停止,tensorflow,nlp,lstm,recurrent-neural-network,Tensorflow,Nlp,Lstm,Recurrent Neural Network,我有一个双向LSTM模型,它以文本中的单词作为输入,经过一个嵌入层,一个双向LSTM层,最后经过一个有4个单元的密集层和一个softmax激活。这个模型的目标是预测一个单词是否是一个实体以及它是什么类型的实体 在训练过程中,模型以较低的验证和训练损失开始(≈ 0.01),并缓慢下降,直至停滞。我的数据集中的文本在字长上可能有所不同,因此我决定将小于2048的示例填充到该值。超过2048个单词的那些(是的,将输入大小减少一半确实帮助我获得了更好的结果。但这还不够,我还必须添加一个新的双向LSTM层

我有一个双向LSTM模型,它以文本中的单词作为输入,经过一个嵌入层,一个双向LSTM层,最后经过一个有4个单元的密集层和一个softmax激活。这个模型的目标是预测一个单词是否是一个实体以及它是什么类型的实体


在训练过程中,模型以较低的验证和训练损失开始(≈ 0.01),并缓慢下降,直至停滞。我的数据集中的文本在字长上可能有所不同,因此我决定将小于2048的示例填充到该值。超过2048个单词的那些(是的,将输入大小减少一半确实帮助我获得了更好的结果。但这还不够,我还必须添加一个新的双向LSTM层,并将两个层中的单元数增加一倍(256到512)

Layer (type)                 Output Shape              Param #
=================================================================
input_1 (InputLayer)         [(None, 2048)]            0
_________________________________________________________________
embedding (Embedding)        (None, 2048, 300)         15145800
_________________________________________________________________
bidirectional (Bidirectional (None, 2048, 256)         439296
_________________________________________________________________
dropout (Dropout)            (None, 2048, 256)         0
_________________________________________________________________
dense (Dense)                (None, 2048, 4)           1028
=================================================================
Total params: 15,586,124
Trainable params: 440,324
Non-trainable params: 15,145,800