Machine learning 使用不同GPU的变压器的多GPU培训

Machine learning 使用不同GPU的变压器的多GPU培训,machine-learning,huggingface-transformers,Machine Learning,Huggingface Transformers,我想使用Huggingface的变形金刚对GPT-2模型进行微调。最好是中等型号,但如果可能,则为大型号。目前,我有一个RTX2080TI和11GB的内存,我可以训练的小模型刚刚好 我的问题是:如果我在我的机器上添加一个旧的特斯拉K80(24GB)并分发培训,我会遇到任何问题吗?我找不到有关在培训期间使用不同容量GPU的信息以及可能遇到的问题 我的型号大小限制实际上是所有可用GPU内存的总和吗?(35GB?) 我对在AWS中这样做不感兴趣。继续订购K80。我会在它到达时更新它,我可以尝试一些本地

我想使用Huggingface的变形金刚对GPT-2模型进行微调。最好是中等型号,但如果可能,则为大型号。目前,我有一个RTX2080TI和11GB的内存,我可以训练的小模型刚刚好

我的问题是:如果我在我的机器上添加一个旧的特斯拉K80(24GB)并分发培训,我会遇到任何问题吗?我找不到有关在培训期间使用不同容量GPU的信息以及可能遇到的问题

我的型号大小限制实际上是所有可用GPU内存的总和吗?(35GB?)


我对在AWS中这样做不感兴趣。

继续订购K80。我会在它到达时更新它,我可以尝试一些本地异构多GPU培训!K80安装和运行。系统可以看到两个分别为11GB的GPU。当我开始训练时,我会得到一个警告。“您的GPU之间存在不平衡。您可能希望排除GPU 1,该GPU 1的内存或核心少于GPU 0的75%。”据我所知,这不会导致任何问题;但是,我无法加载介质GPT2而不出现OOM错误。有没有办法在我的3个GPU(每个GPU有11GB)上拆分它?看起来只有在我尝试在8xV100(每个16GB)上运行345M,在AWS上批处理大小为1时,才真正支持模型并行化,但出现OOM错误。该模型试图在每个GPU中分配超过16GB的内存。你是如何解决这个问题的?有没有办法将2个GPU视为一个GPU?