Pytorch 使用FP16是否有助于加快生成？（拥抱巴特）_Pytorch_Huggingface Transformers_Seq2seq

Pytorch 使用FP16是否有助于加快生成？（拥抱巴特）

pytorch

Pytorch 使用FP16是否有助于加快生成？（拥抱巴特）,pytorch,huggingface-transformers,seq2seq,Pytorch,Huggingface Transformers,Seq2seq,我按照下面的指南在PyTorch中使用FP16。基本上，我用巴特拥抱了一代人在培训阶段，我能够获得2倍的加速比和更少的GPU内存消耗但是在调用torch.cuda.amp.autocast（）下的model.generate时，我发现没有加速带有torch.cuda.amp.autocast（）： model.generate（…）通过以下方式保存模型时： model.save\u pretrained（“model\u文件夹”）大小不会减少到一半。但是我必须在保存之前调用m

我按照下面的指南在PyTorch中使用FP16。

基本上，我用巴特拥抱了一代人

在培训阶段，我能够获得2倍的加速比和更少的GPU内存消耗

但是

在调用

torch.cuda.amp.autocast（）下的model.generate
时，我发现没有加速


带有torch.cuda.amp.autocast（）：
model.generate（…）

通过以下方式保存模型时：
model.save\u pretrained（“model\u文件夹”）

大小不会减少到一半。但是我必须在保存之前调用model.half（）
，以便使模型大小减半
因此，我的问题是：

1.
中的问题是预期的还是我做错了什么
我在2.
中所做的操作是否正确