Deep learning 为什么BERT模型必须保持10%的掩码令牌不变？_Deep Learning_Nlp_Bert Language Model

Deep learning 为什么BERT模型必须保持10%的掩码令牌不变？

deep-learning nlp

Deep learning 为什么BERT模型必须保持10%的掩码令牌不变？,deep-learning,nlp,bert-language-model,Deep Learning,Nlp,Bert Language Model,我正在读伯特模型纸。在蒙面语言模型任务中，在训练BERT模型前，本文称该模型将随机选择15%的标记。在所选的令牌（Ti）中，80%将替换为[MASK]令牌，10%的Ti不变，10%的Ti替换为另一个字。我认为这个模型只需要用[MASK]或其他词来代替就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测[屏蔽]令牌还是预测整个随机令牌的15%？之所以这样做，是因为他们想预训练一个双向模型。大多数情况下，网络会看到一个带有[面具]标记的句子，并训练它预测应该出现的单词。但是在预培训

我正在读伯特模型纸。在蒙面语言模型任务中，在训练BERT模型前，本文称该模型将随机选择15%的标记。在所选的令牌（Ti）中，80%将替换为[MASK]令牌，10%的Ti不变，10%的Ti替换为另一个字。我认为这个模型只需要用[MASK]或其他词来代替就足够了。为什么模型必须随机选择一个单词并保持不变？预训练过程是只预测[屏蔽]令牌还是预测整个随机令牌的15%？

之所以这样做，是因为他们想预训练一个双向模型。大多数情况下，网络会看到一个带有[面具]标记的句子，并训练它预测应该出现的单词。但是在预培训后进行的微调（微调是每个想在任务中使用BERT的人都进行的培训）中，没有[MASK]标记！（除非您特别指定蒙面LM）

预训练和训练之间的这种不匹配（突然消失的[MASK]标记）被他们软化，有15%的概率单词没有被[MASK]替换。任务仍然存在，网络必须预测令牌，但它实际上已经得到了答案作为输入。这似乎有悖常理，但与[MASK]训练相结合是有意义的。

这篇论文是这样的，讨论的句子是在3.1训练前的BERT任务#1 Masked LM中。