Machine learning 伯特掩蔽语言模型_Machine Learning_Nlp

Machine learning 伯特掩蔽语言模型

machine-learning nlp

Machine learning 伯特掩蔽语言模型,machine-learning,nlp,Machine Learning,Nlp,我已经开始剖析google（）的BERT论文，偶然发现了一些我不理解的观点我的问题是关于蒙面语言模型首先，我们屏蔽了15%的标记，学习任务是预测这些标记（这似乎是一个很长的收敛过程）但我们并不是简单地用[mask]屏蔽它，而是10%的时间：我们用随机令牌替换它但是为什么呢？此外，在另外10%中，我们保持代币不变这样做的目的是使陈述偏向于实际情况注意到这个词这篇引文完全把我弄糊涂了，在80%的情况下，我们实际上掩盖了它，10%将如何帮助我们保持偏见如果您有任何解释，我将不胜感激。这

我已经开始剖析google（）的BERT论文，偶然发现了一些我不理解的观点

我的问题是关于蒙面语言模型

首先，我们屏蔽了15%的标记，学习任务是预测这些标记（这似乎是一个很长的收敛过程）

但我们并不是简单地用[mask]屏蔽它，而是10%的时间：我们用随机令牌替换它但是为什么呢？

此外，在另外10%中，我们保持代币不变

这样做的目的是使陈述偏向于实际情况注意到这个词

这篇引文完全把我弄糊涂了，在80%的情况下，我们实际上掩盖了它，10%将如何帮助我们保持偏见

如果您有任何解释，我将不胜感激。

这将有助于回答您的问题