Nlp 培训拥抱面'；s GPT2从头开始：如何实现因果屏蔽？_Nlp_Huggingface Transformers_Gpt

Nlp 培训拥抱面'；s GPT2从头开始：如何实现因果屏蔽？

nlp

Nlp 培训拥抱面'；s GPT2从头开始：如何实现因果屏蔽？,nlp,huggingface-transformers,gpt,Nlp,Huggingface Transformers,Gpt,我试图从头开始训练huggingface对GPT2模型的实现（这意味着我使用的是他们的架构，但不是使用预先训练好的权重），但通过查看这里的代码，我注意到似乎没有一个因果掩码的实现我可以为循环编写一个丑陋的，，并将我的训练序列一次一个令牌发送到网络，这并不是无效的。我也可以一个标记一个标记地切碎我的每个示例，填充它们并像一批一样输入，这可能会更快，但感觉不太满意你们中有人曾经和huggingface的变形金刚密切合作过吗？您知道我是否遗漏了casal mask的一个实现，或者我正在描述的另一种

我试图从头开始训练huggingface对GPT2模型的实现（这意味着我使用的是他们的架构，但不是使用预先训练好的权重），但通过查看这里的代码，我注意到似乎没有一个因果掩码的实现

我可以为循环编写一个丑陋的

，

，并将我的训练序列一次一个令牌发送到网络，这并不是无效的。我也可以一个标记一个标记地切碎我的每个示例，填充它们并像一批一样输入，这可能会更快，但感觉不太满意

你们中有人曾经和huggingface的变形金刚密切合作过吗？您知道我是否遗漏了casal mask的一个实现，或者我正在描述的另一种实现方式吗

PS：是的，我已经读过huggingface关于从头开始训练的博文，但大部分内容都不完整，有关训练的相关部分也被遗漏了。

您好，您发现了吗？我也处于类似的情况，有点不知所措。不，最后我选择了

for

循环解决方案。。。既然你问了，我想他们还没有实现它？喂，你知道了吗？我也处于类似的情况，有点不知所措。不，最后我选择了

for

循环解决方案。。。考虑到你的提问，我认为他们还没有实施？