Tensorflow 伯特的掩蔽

Tensorflow 伯特的掩蔽,tensorflow,masking,bert-language-model,Tensorflow,Masking,Bert Language Model,在BERT的原始论文中说: 注意掩蔽策略的目的 是为了减少预培训之间的不匹配 以及微调,因为在微调阶段,[MASK]符号从未出现 让我们考虑一个句子“我是利物浦扇子”,用40%个掩蔽将变成“我[面具]一个[面具]扇”。预测第一个[面具]时,除了第二个[面具]或“我[面具]一个[面具]粉丝”之外,它是否会被短语“我[面具]一个粉丝”用完整的句子预测 用自己的代币替换10%的蒙面代币的目的是什么?这是否意味着它们不会被预测?或者我们将预测他们,让他们自己处于上下文中(比如预测“我是[面具]粉丝”的第

在BERT的原始论文中说:

注意掩蔽策略的目的 是为了减少预培训之间的不匹配 以及微调,因为在微调阶段,[MASK]符号从未出现

让我们考虑一个句子“我是利物浦扇子”,用40%个掩蔽将变成“我[面具]一个[面具]扇”。预测第一个[面具]时,除了第二个[面具]或“我[面具]一个[面具]粉丝”之外,它是否会被短语“我[面具]一个粉丝”用完整的句子预测

用自己的代币替换10%的蒙面代币的目的是什么?这是否意味着它们不会被预测?或者我们将预测他们,让他们自己处于上下文中(比如预测“我是[面具]粉丝”的第一个[面具]


非常感谢您的帮助!

如果您清楚地看了这篇文章,并在XLNET上查看了这篇解释伯特缺点的文章,这意味着,给定一句话“我[面具]一个[面具]球迷”,它会尝试使用“我[面具]一个[面具]球迷”而不是“我[面具]一个利物浦球迷”来预测[面具]标记

因此,它只屏蔽了15%的令牌。保留10%的掩码令牌的想法意味着它们不会被预测