Pytorch 是什么使BertGeneration和/或RobertaForCausalLM因果模型？因果注意掩蔽发生在哪里？_Pytorch_Bert Language Model_Huggingface Transformers_Roberta Language Model

Pytorch 是什么使BertGeneration和/或RobertaForCausalLM因果模型？因果注意掩蔽发生在哪里？

pytorch

Pytorch 是什么使BertGeneration和/或RobertaForCausalLM因果模型？因果注意掩蔽发生在哪里？,pytorch,bert-language-model,huggingface-transformers,roberta-language-model,Pytorch,Bert Language Model,Huggingface Transformers,Roberta Language Model,我尝试使用RobertaForCausalLM和/或BertGeneration进行因果语言建模/下一个单词预测/从左到右预测。我似乎不知道因果掩蔽发生在哪里？我想用地面真相标签来训练教师，但注意机制中不包括来自未来代币的信息。因此，我认为该模型需要因果注意掩蔽，但我看不出它在任何地方都适用如果有人能告诉我这可能发生在哪里，或者为什么没有必要，那会很有帮助谢谢我找到了。它发生在中的get\u extended\u attention\u mask。考虑这个问题已经解决了：S笑微笑：< /P

我尝试使用RobertaForCausalLM和/或BertGeneration进行因果语言建模/下一个单词预测/从左到右预测。我似乎不知道因果掩蔽发生在哪里？我想用地面真相标签来训练教师，但注意机制中不包括来自未来代币的信息。因此，我认为该模型需要因果注意掩蔽，但我看不出它在任何地方都适用

如果有人能告诉我这可能发生在哪里，或者为什么没有必要，那会很有帮助

谢谢

我找到了。它发生在中的

get\u extended\u attention\u mask

。考虑这个问题已经解决了：S笑微笑：< /P>