Nlp 培训拥抱面';s GPT2从头开始:如何实现因果屏蔽?

Nlp 培训拥抱面';s GPT2从头开始:如何实现因果屏蔽?,nlp,huggingface-transformers,gpt,Nlp,Huggingface Transformers,Gpt,我试图从头开始训练huggingface对GPT2模型的实现(这意味着我使用的是他们的架构,但不是使用预先训练好的权重),但通过查看这里的代码,我注意到似乎没有一个因果掩码的实现 我可以为循环编写一个丑陋的,,并将我的训练序列一次一个令牌发送到网络,这并不是无效的。我也可以一个标记一个标记地切碎我的每个示例,填充它们并像一批一样输入,这可能会更快,但感觉不太满意 你们中有人曾经和huggingface的变形金刚密切合作过吗?您知道我是否遗漏了casal mask的一个实现,或者我正在描述的另一种

我试图从头开始训练huggingface对GPT2模型的实现(这意味着我使用的是他们的架构,但不是使用预先训练好的权重),但通过查看这里的代码,我注意到似乎没有一个因果掩码的实现

我可以为循环编写一个丑陋的
,并将我的训练序列一次一个令牌发送到网络,这并不是无效的。我也可以一个标记一个标记地切碎我的每个示例,填充它们并像一批一样输入,这可能会更快,但感觉不太满意

你们中有人曾经和huggingface的变形金刚密切合作过吗?您知道我是否遗漏了casal mask的一个实现,或者我正在描述的另一种实现方式吗


PS:是的,我已经读过huggingface关于从头开始训练的博文,但大部分内容都不完整,有关训练的相关部分也被遗漏了。

您好,您发现了吗?我也处于类似的情况,有点不知所措。不,最后我选择了
for
循环解决方案。。。既然你问了,我想他们还没有实现它?喂,你知道了吗?我也处于类似的情况,有点不知所措。不,最后我选择了
for
循环解决方案。。。考虑到你的提问,我认为他们还没有实施?