Pytorch 是什么使BertGeneration和/或RobertaForCausalLM因果模型?因果注意掩蔽发生在哪里?

Pytorch 是什么使BertGeneration和/或RobertaForCausalLM因果模型?因果注意掩蔽发生在哪里?,pytorch,bert-language-model,huggingface-transformers,roberta-language-model,Pytorch,Bert Language Model,Huggingface Transformers,Roberta Language Model,我尝试使用RobertaForCausalLM和/或BertGeneration进行因果语言建模/下一个单词预测/从左到右预测。我似乎不知道因果掩蔽发生在哪里?我想用地面真相标签来训练教师,但注意机制中不包括来自未来代币的信息。因此,我认为该模型需要因果注意掩蔽,但我看不出它在任何地方都适用 如果有人能告诉我这可能发生在哪里,或者为什么没有必要,那会很有帮助 谢谢 我找到了。它发生在中的get\u extended\u attention\u mask。考虑这个问题已经解决了:S笑微笑:< /P

我尝试使用RobertaForCausalLM和/或BertGeneration进行因果语言建模/下一个单词预测/从左到右预测。我似乎不知道因果掩蔽发生在哪里?我想用地面真相标签来训练教师,但注意机制中不包括来自未来代币的信息。因此,我认为该模型需要因果注意掩蔽,但我看不出它在任何地方都适用

如果有人能告诉我这可能发生在哪里,或者为什么没有必要,那会很有帮助


谢谢

我找到了。它发生在中的
get\u extended\u attention\u mask
。考虑这个问题已经解决了:S笑微笑:< /P>