Pytorch 使用FP16是否有助于加快生成?(拥抱巴特)
我按照下面的指南在PyTorch中使用FP16。 基本上,我用巴特拥抱了一代人Pytorch 使用FP16是否有助于加快生成?(拥抱巴特),pytorch,huggingface-transformers,seq2seq,Pytorch,Huggingface Transformers,Seq2seq,我按照下面的指南在PyTorch中使用FP16。 基本上,我用巴特拥抱了一代人 在培训阶段,我能够获得2倍的加速比和更少的GPU内存消耗 但是 在调用torch.cuda.amp.autocast()下的model.generate时,我发现没有加速 带有torch.cuda.amp.autocast(): model.generate(…) 通过以下方式保存模型时: model.save\u pretrained(“model\u文件夹”) 大小不会减少到一半。但是我必须在保存之前调用m
torch.cuda.amp.autocast()下的model.generate
时,我发现没有加速
带有torch.cuda.amp.autocast():
model.generate(…)
model.save\u pretrained(“model\u文件夹”)
大小不会减少到一半。但是我必须在保存之前调用model.half()
,以便使模型大小减半
因此,我的问题是:
中的问题是预期的还是我做错了什么1.
- 我在
中所做的操作是否正确2.