Deep learning 为什么BERT模型必须保持10%的掩码令牌不变?

Deep learning 为什么BERT模型必须保持10%的掩码令牌不变?,deep-learning,nlp,bert-language-model,Deep Learning,Nlp,Bert Language Model,我正在读伯特模型纸。在蒙面语言模型任务中,在训练BERT模型前,本文称该模型将随机选择15%的标记。在所选的令牌(Ti)中,80%将替换为[MASK]令牌,10%的Ti不变,10%的Ti替换为另一个字。我认为这个模型只需要用[MASK]或其他词来代替就足够了。为什么模型必须随机选择一个单词并保持不变?预训练过程是只预测[屏蔽]令牌还是预测整个随机令牌的15%?之所以这样做,是因为他们想预训练一个双向模型。大多数情况下,网络会看到一个带有[面具]标记的句子,并训练它预测应该出现的单词。但是在预培训

我正在读伯特模型纸。在蒙面语言模型任务中,在训练BERT模型前,本文称该模型将随机选择15%的标记。在所选的令牌(Ti)中,80%将替换为[MASK]令牌,10%的Ti不变,10%的Ti替换为另一个字。我认为这个模型只需要用[MASK]或其他词来代替就足够了。为什么模型必须随机选择一个单词并保持不变?预训练过程是只预测[屏蔽]令牌还是预测整个随机令牌的15%?

之所以这样做,是因为他们想预训练一个双向模型。大多数情况下,网络会看到一个带有[面具]标记的句子,并训练它预测应该出现的单词。但是在预培训后进行的微调(微调是每个想在任务中使用BERT的人都进行的培训)中,没有[MASK]标记!(除非您特别指定蒙面LM)

预训练和训练之间的这种不匹配(突然消失的[MASK]标记)被他们软化,有15%的概率单词没有被[MASK]替换。任务仍然存在,网络必须预测令牌,但它实际上已经得到了答案作为输入。这似乎有悖常理,但与[MASK]训练相结合是有意义的。

这篇论文是这样的,讨论的句子是在3.1训练前的BERT任务#1 Masked LM中。