Nlp bert中的反向传播_Nlp_Bert Language Model_Transformer

Nlp bert中的反向传播

nlp

Nlp bert中的反向传播,nlp,bert-language-model,transformer,Nlp,Bert Language Model,Transformer,我想知道当人们说预训练的bert模型时，它是不是只训练最终的分类神经网络或在预训练期间，变压器内部是否通过反向传播和分类神经网络进行更新，如果模型（权值更新），则进行完整的训练。此外，BERT的训练目标是蒙面语言模型，而不是分类目标在预训练中，您通常使用大量通用数据训练模型。因此，它必须根据任务特定的数据和任务特定的目标进行微调所以，如果您的任务是在数据集X上进行分类，那么您可以相应地对BERT进行微调。现在，您将添加一个特定于任务的层（分类层，在BERT中，他们在[CLS]令牌上使用了

我想知道当人们说预训练的bert模型时，它是不是只训练最终的分类神经网络

或

在预训练期间，变压器内部是否通过反向传播和分类神经网络进行更新，如果模型（权值更新），则进行完整的训练。此外，BERT的训练目标是蒙面语言模型，而不是分类目标

在预训练中，您通常使用大量通用数据训练模型。因此，它必须根据任务特定的数据和任务特定的目标进行微调

所以，如果您的任务是在数据集X上进行分类，那么您可以相应地对BERT进行微调。现在，您将添加一个特定于任务的层（分类层，在BERT中，他们在

[CLS]

令牌上使用了密集层）。微调时，您会更新预先训练的模型权重以及新的任务特定层。

您的意思是说预训练与微调？我的意思是说在预训练期间，您能解释一下@AshWingeted'Sa在Bert的每个编码器的训练期间是否有权重的内部更新吗？我的疑问是，这些预先训练的权重是什么。它们是指查询、键和值的权重矩阵吗？是的，它们是K、Q、V矩阵的权重和FF层的权重。感谢@AshWingeted'Sa，这些权重（K、Q、V矩阵和FF层的）是何时以及如何反向传播和调整的？我的假设是，首先它们初始化一些随机权重，但我无法理解这些权重是何时通过反向传播更新的。嗯，我要说的机制仍然是反向传播算法。权重的更新取决于损失的导数。正如你提到的，损失是根据传销和NSP计算的。是的。。。。没错。