Machine learning 伯特掩蔽语言模型

Machine learning 伯特掩蔽语言模型,machine-learning,nlp,Machine Learning,Nlp,我已经开始剖析google()的BERT论文,偶然发现了一些我不理解的观点 我的问题是关于蒙面语言模型 首先,我们屏蔽了15%的标记,学习任务是预测这些标记(这似乎是一个很长的收敛过程) 但我们并不是简单地用[mask]屏蔽它,而是10%的时间:我们用随机令牌替换它但是为什么呢? 此外,在另外10%中,我们保持代币不变 这样做的目的是使陈述偏向于实际情况 注意到这个词 这篇引文完全把我弄糊涂了,在80%的情况下,我们实际上掩盖了它,10%将如何帮助我们保持偏见 如果您有任何解释,我将不胜感激。这

我已经开始剖析google()的BERT论文,偶然发现了一些我不理解的观点

我的问题是关于蒙面语言模型

首先,我们屏蔽了15%的标记,学习任务是预测这些标记(这似乎是一个很长的收敛过程)

但我们并不是简单地用[mask]屏蔽它,而是10%的时间:我们用随机令牌替换它但是为什么呢?

此外,在另外10%中,我们保持代币不变

这样做的目的是使陈述偏向于实际情况 注意到这个词

这篇引文完全把我弄糊涂了,在80%的情况下,我们实际上掩盖了它,10%将如何帮助我们保持偏见

如果您有任何解释,我将不胜感激。

这将有助于回答您的问题