Deep learning 为什么高级LSTM模型的结果并不比简单模型的结果好?

Deep learning 为什么高级LSTM模型的结果并不比简单模型的结果好?,deep-learning,nlp,lstm,recurrent-neural-network,Deep Learning,Nlp,Lstm,Recurrent Neural Network,我已经实现了文章中提出的模型,这是一个文本分类模型,它使用句子表示而不仅仅是单词表示来分类文本 model=tf.keras.Sequential() embeding_layer=layers.Embedding(self.vocab_size,self.word_vector_dim,weights=[word_embeding_matrix],trainable=False,mask_zero=False) model.add(TimeDistributed(embeding_layer)

我已经实现了文章中提出的模型,这是一个文本分类模型,它使用句子表示而不仅仅是单词表示来分类文本

model=tf.keras.Sequential()
embeding_layer=layers.Embedding(self.vocab_size,self.word_vector_dim,weights=[word_embeding_matrix],trainable=False,mask_zero=False)
model.add(TimeDistributed(embeding_layer))
model.add(TimeDistributed(tf.keras.layers.LSTM(50)))
model.add(tf.keras.layers.Bidirectional(costumized_lstm.Costumized_LSTM(50)))
model.add(layers.Dense(6,activation='softmax'))
opt=tf.keras.optimizers.Adam(learning_rate=0.001)
model.compile(optimizer=opt,loss='categorical_crossentropy',metrics=['accuracy',self.f1_m,self.precision_m, self.recall_m])
self.model=model
我使用一个包含40000个文档和6个不同标签的数据集来训练它。(列车30000,试验10000)。我使用了一个预训练的单词嵌入,这个模型的输入是(样本、句子、单词)。它达到了84%的准确率。问题是,我可以通过这个简单的模型很容易地达到这个精度:

        model=tf.keras.Sequential()
    embeding_layer=layers.Embedding(self.vocab_size,self.word_vector_dim,weights=[word_embeding_matrix],trainable=False,mask_zero=False)
    model.add(embeding_layer)
    model.add(tf.keras.layers.Bidirectional(layers.LSTM(50)))
    model.add(layers.Dense(6,activation='softmax'))
    opt=tf.keras.optimizers.RMSprop(learning_rate=0.001)
    model.compile(optimizer=opt,loss='categorical_crossentropy',metrics=['accuracy',self.f1_m,self.precision_m, self.recall_m])
    self.model=model
此模型不基于句子表示,此模型的输入为(示例,单词)。 第一种型号有什么问题?我的实现错了吗?我该怎么办

两种模型的培训过程都超过了84%。我也使用了各种技巧来克服过度拟合,但我没有得到任何结果。有什么建议吗? [![在此处输入图像描述][2][2]