Neural network 论第i代币的影响';s掩码到i';th代币';BERT掩蔽语言模型中的s预测分布

Neural network 论第i代币的影响';s掩码到i';th代币';BERT掩蔽语言模型中的s预测分布,neural-network,deep-learning,nlp,Neural Network,Deep Learning,Nlp,在XLNet的文章中,解释了掩蔽技术有一个缺点,因为只有当BERT模型是预先训练的令牌时,部分(分数15%~20%)被掩蔽符号替换,但在微调过程中,没有输入具有掩蔽令牌 我的第一个问题是: 当输入句子的i-th标记被屏蔽时,BERT预训练的屏蔽语言模型(其权重被冻结)能输出i-th标记的一种自然分布吗?(此设置在其他NLP任务的所有应用程序中都没有意义,但我的目的是了解掩码的作用。) 在这里,不太可能的代词意味着两种模式:第一种模式是pretrain语料库中的ulikelity,例如句子“我每天

在XLNet的文章中,解释了掩蔽技术有一个缺点,因为只有当BERT模型是预先训练的令牌时,部分(分数15%~20%)被掩蔽符号替换,但在微调过程中,没有输入具有掩蔽令牌

我的第一个问题是:

当输入句子的i-th标记被屏蔽时,BERT预训练的屏蔽语言模型(其权重被冻结)能输出i-th标记的一种自然分布吗?(此设置在其他NLP任务的所有应用程序中都没有意义,但我的目的是了解掩码的作用。)

在这里,不太可能的代词意味着两种模式:第一种模式是pretrain语料库中的ulikelity,例如句子“我每天咬一条狗”,它更像是句子“昨天狗咬我”或“我每天拍一条狗”。根据常识,第二种模式是语法错误,比如“我每天买牛奶”。而不是“我每天买一杯牛奶”。所以,我的问题是,当“我每天给一只狗戴面具”和“我每天给一只狗打字节”被输入到同一个预训练的伯特模型中时,使用具有常识和正确语法的大型语料库,那么两个对应的预测分布是否有很大不同的形状

如果第一个问题的答案是肯定的,那么我可以通过这两个预测分布的KL发散函数来检查异常句子和其异常标记被掩盖的句子之间的分布差异吗