Deep learning LSTM神经网络中的损失函数

Deep learning LSTM神经网络中的损失函数,deep-learning,keras,lstm,Deep Learning,Keras,Lstm,我不明白在这些网络中什么被最小化了。 有人能解释一下当LSTM网络中的损耗变小时,在数学上发生了什么吗 model.compile(loss='categorical_crossentropy', optimizer='adam') 从这个角度来看,分类的交叉熵就是多类对数损失。原木损失的数学和理论解释 基本上,LSTM为单词(或字符,取决于您的模型)指定标签,并通过惩罚单词(或字符)序列中的错误标签来优化模型。该模型采用输入单词或字符向量,并根据训练示例尝试猜测下一个“最佳”单词。分类交叉熵

我不明白在这些网络中什么被最小化了。 有人能解释一下当LSTM网络中的损耗变小时,在数学上发生了什么吗

model.compile(loss='categorical_crossentropy', optimizer='adam')
从这个角度来看,
分类的交叉熵就是多类对数损失。原木损失的数学和理论解释


基本上,LSTM为单词(或字符,取决于您的模型)指定标签,并通过惩罚单词(或字符)序列中的错误标签来优化模型。该模型采用输入单词或字符向量,并根据训练示例尝试猜测下一个“最佳”单词。分类交叉熵是衡量猜测好坏的一种定量方法。当模型在训练集上迭代时,它在猜测下一个最佳单词(或字符)时会犯更少的错误

好消息。我想知道这个问题到底出了什么问题,它可能更适合交叉验证或数据科学或计算机科学堆栈,但既然你问的是keras中的具体实现,我认为这是有争议的。