Pytorch 使用FP16是否有助于加快生成?(拥抱巴特)

Pytorch 使用FP16是否有助于加快生成?(拥抱巴特),pytorch,huggingface-transformers,seq2seq,Pytorch,Huggingface Transformers,Seq2seq,我按照下面的指南在PyTorch中使用FP16。 基本上,我用巴特拥抱了一代人 在培训阶段,我能够获得2倍的加速比和更少的GPU内存消耗 但是 在调用torch.cuda.amp.autocast()下的model.generate时,我发现没有加速 带有torch.cuda.amp.autocast(): model.generate(…) 通过以下方式保存模型时: model.save\u pretrained(“model\u文件夹”) 大小不会减少到一半。但是我必须在保存之前调用m

我按照下面的指南在PyTorch中使用FP16。

基本上,我用巴特拥抱了一代人

  • 在培训阶段,我能够获得2倍的加速比和更少的GPU内存消耗
  • 但是

  • 在调用
    torch.cuda.amp.autocast()下的
    model.generate
    时,我发现没有加速
  • 带有torch.cuda.amp.autocast():
    model.generate(…)
    
  • 通过以下方式保存模型时:
  • model.save\u pretrained(“model\u文件夹”)
    
    大小不会减少到一半。但是我必须在保存之前调用
    model.half()
    ,以便使模型大小减半

    因此,我的问题是:

    • 1.
      中的问题是预期的还是我做错了什么
    • 我在
      2.
      中所做的操作是否正确