Tensorflow 伯特的掩蔽_Tensorflow_Masking_Bert Language Model

Tensorflow 伯特的掩蔽

tensorflow

Tensorflow 伯特的掩蔽,tensorflow,masking,bert-language-model,Tensorflow,Masking,Bert Language Model,在BERT的原始论文中说：注意掩蔽策略的目的是为了减少预培训之间的不匹配以及微调，因为在微调阶段，[MASK]符号从未出现让我们考虑一个句子“我是利物浦扇子”，用40%个掩蔽将变成“我[面具]一个[面具]扇”。预测第一个[面具]时，除了第二个[面具]或“我[面具]一个[面具]粉丝”之外，它是否会被短语“我[面具]一个粉丝”用完整的句子预测用自己的代币替换10%的蒙面代币的目的是什么？这是否意味着它们不会被预测？或者我们将预测他们，让他们自己处于上下文中（比如预测“我是[面具]粉丝”的第

在BERT的原始论文中说：

注意掩蔽策略的目的是为了减少预培训之间的不匹配以及微调，因为在微调阶段，[MASK]符号从未出现

让我们考虑一个句子“我是利物浦扇子”，用40%个掩蔽将变成“我[面具]一个[面具]扇”。预测第一个[面具]时，除了第二个[面具]或“我[面具]一个[面具]粉丝”之外，它是否会被短语“我[面具]一个粉丝”用完整的句子预测

用自己的代币替换10%的蒙面代币的目的是什么？这是否意味着它们不会被预测？或者我们将预测他们，让他们自己处于上下文中（比如预测“我是[面具]粉丝”的第一个[面具]

非常感谢您的帮助！

如果您清楚地看了这篇文章，并在XLNET上查看了这篇解释伯特缺点的文章，这意味着，给定一句话“我[面具]一个[面具]球迷”，它会尝试使用“我[面具]一个[面具]球迷”而不是“我[面具]一个利物浦球迷”来预测[面具]标记

因此，它只屏蔽了15%的令牌。保留10%的掩码令牌的想法意味着它们不会被预测