Deep learning 计算RoBERTa的内存使用率?

Deep learning 计算RoBERTa的内存使用率?,deep-learning,pytorch,huggingface-transformers,Deep Learning,Pytorch,Huggingface Transformers,我目前正在训练Roberta进行情绪分类,而拥有一个固定的小批量正在扼杀我的表现。在某种程度上,运行我正在运行的东西将需要8-9天来完成一次训练集。在给定n_输入、输入长度和输入嵌入大小的情况下,是否存在计算RoBERTa内存使用量的通用公式?如果我有这个功能,我应该能够在运行中高效地执行mini-batch(由于我正在使用其他库,它必须在运行时完成) (如果有帮助的话,我正在使用PyTorch来做这件事)也许你可以试试。谢谢你的建议,不幸的是,我认为这个工具只能猜测模型的大小。在模型中运行不同

我目前正在训练Roberta进行情绪分类,而拥有一个固定的小批量正在扼杀我的表现。在某种程度上,运行我正在运行的东西将需要8-9天来完成一次训练集。在给定n_输入、输入长度和输入嵌入大小的情况下,是否存在计算RoBERTa内存使用量的通用公式?如果我有这个功能,我应该能够在运行中高效地执行mini-batch(由于我正在使用其他库,它必须在运行时完成)


(如果有帮助的话,我正在使用PyTorch来做这件事)

也许你可以试试。谢谢你的建议,不幸的是,我认为这个工具只能猜测模型的大小。在模型中运行不同大小的输入/批处理大小时,我在寻找内存使用率的方程式。自述文件提到了以下参数:
se.param#bits——参数占用的位
se.forward#backward#bits——存储用于向前和向后的位
se.input#bits——用于输入的位
。这听起来正是你想要的。很抱歉,我错过了,看起来很好,我现在就给它做一个测试。它非常接近我想要的东西,但是它可以计算
se。通过实际运行不理想的模型向前/向后\u位
,你可以尝试。谢谢你的建议,不幸的是,我认为该工具只能猜测模型的大小。在模型中运行不同大小的输入/批处理大小时,我在寻找内存使用率的方程式。自述文件提到了以下参数:
se.param#bits——参数占用的位
se.forward#backward#bits——存储用于向前和向后的位
se.input#bits——用于输入的位
。这听起来正是你想要的。很抱歉,我错过了,看起来很好,我现在就给它做一个测试。它非常接近我想要的东西,但是它计算出
se。通过实际运行不理想的模型向前/向后