Nlp bert中的反向传播

Nlp bert中的反向传播,nlp,bert-language-model,transformer,Nlp,Bert Language Model,Transformer,我想知道当人们说预训练的bert模型时,它是不是只训练最终的分类神经网络 或 在预训练期间,变压器内部是否通过反向传播和分类神经网络进行更新,如果模型(权值更新),则进行完整的训练。此外,BERT的训练目标是蒙面语言模型,而不是分类目标 在预训练中,您通常使用大量通用数据训练模型。因此,它必须根据任务特定的数据和任务特定的目标进行微调 所以,如果您的任务是在数据集X上进行分类,那么您可以相应地对BERT进行微调。现在,您将添加一个特定于任务的层(分类层,在BERT中,他们在[CLS]令牌上使用了

我想知道当人们说预训练的bert模型时,它是不是只训练最终的分类神经网络


在预训练期间,变压器内部是否通过反向传播和分类神经网络进行更新,如果模型(权值更新),则进行完整的训练。此外,BERT的训练目标是蒙面语言模型,而不是分类目标

在预训练中,您通常使用大量通用数据训练模型。因此,它必须根据任务特定的数据和任务特定的目标进行微调


所以,如果您的任务是在数据集X上进行分类,那么您可以相应地对BERT进行微调。现在,您将添加一个特定于任务的层(分类层,在BERT中,他们在
[CLS]
令牌上使用了密集层)。微调时,您会更新预先训练的模型权重以及新的任务特定层。

您的意思是说预训练与微调?我的意思是说在预训练期间,您能解释一下@AshWingeted'Sa在Bert的每个编码器的训练期间是否有权重的内部更新吗?我的疑问是,这些预先训练的权重是什么。它们是指查询、键和值的权重矩阵吗?是的,它们是K、Q、V矩阵的权重和FF层的权重。感谢@AshWingeted'Sa,这些权重(K、Q、V矩阵和FF层的)是何时以及如何反向传播和调整的?我的假设是,首先它们初始化一些随机权重,但我无法理解这些权重是何时通过反向传播更新的。嗯,我要说的机制仍然是反向传播算法。权重的更新取决于损失的导数。正如你提到的,损失是根据传销和NSP计算的。是的。。。。没错。