Deep learning 计算RoBERTa的内存使用率？_Deep Learning_Pytorch_Huggingface Transformers

Deep learning 计算RoBERTa的内存使用率？

deep-learning pytorch

Deep learning 计算RoBERTa的内存使用率？,deep-learning,pytorch,huggingface-transformers,Deep Learning,Pytorch,Huggingface Transformers,我目前正在训练Roberta进行情绪分类，而拥有一个固定的小批量正在扼杀我的表现。在某种程度上，运行我正在运行的东西将需要8-9天来完成一次训练集。在给定n_输入、输入长度和输入嵌入大小的情况下，是否存在计算RoBERTa内存使用量的通用公式？如果我有这个功能，我应该能够在运行中高效地执行mini-batch（由于我正在使用其他库，它必须在运行时完成）（如果有帮助的话，我正在使用PyTorch来做这件事）也许你可以试试。谢谢你的建议，不幸的是，我认为这个工具只能猜测模型的大小。在模型中运行不同

我目前正在训练Roberta进行情绪分类，而拥有一个固定的小批量正在扼杀我的表现。在某种程度上，运行我正在运行的东西将需要8-9天来完成一次训练集。在给定n_输入、输入长度和输入嵌入大小的情况下，是否存在计算RoBERTa内存使用量的通用公式？如果我有这个功能，我应该能够在运行中高效地执行mini-batch（由于我正在使用其他库，它必须在运行时完成）

（如果有帮助的话，我正在使用PyTorch来做这件事）

也许你可以试试。谢谢你的建议，不幸的是，我认为这个工具只能猜测模型的大小。在模型中运行不同大小的输入/批处理大小时，我在寻找内存使用率的方程式。自述文件提到了以下参数：

se.param#bits——参数占用的位

，

se.forward#backward#bits——存储用于向前和向后的位

和

se.input#bits——用于输入的位

。这听起来正是你想要的。很抱歉，我错过了，看起来很好，我现在就给它做一个测试。它非常接近我想要的东西，但是它可以计算

se。通过实际运行不理想的模型向前/向后\u位

，你可以尝试。谢谢你的建议，不幸的是，我认为该工具只能猜测模型的大小。在模型中运行不同大小的输入/批处理大小时，我在寻找内存使用率的方程式。自述文件提到了以下参数：

se.param#bits——参数占用的位

，

se.forward#backward#bits——存储用于向前和向后的位

和

se.input#bits——用于输入的位

。这听起来正是你想要的。很抱歉，我错过了，看起来很好，我现在就给它做一个测试。它非常接近我想要的东西，但是它计算出

se。通过实际运行不理想的模型向前/向后