Machine learning 使用不同GPU的变压器的多GPU培训_Machine Learning_Huggingface Transformers

Machine learning 使用不同GPU的变压器的多GPU培训

machine-learning

Machine learning 使用不同GPU的变压器的多GPU培训,machine-learning,huggingface-transformers,Machine Learning,Huggingface Transformers,我想使用Huggingface的变形金刚对GPT-2模型进行微调。最好是中等型号，但如果可能，则为大型号。目前，我有一个RTX2080TI和11GB的内存，我可以训练的小模型刚刚好我的问题是：如果我在我的机器上添加一个旧的特斯拉K80（24GB）并分发培训，我会遇到任何问题吗？我找不到有关在培训期间使用不同容量GPU的信息以及可能遇到的问题我的型号大小限制实际上是所有可用GPU内存的总和吗？（35GB？）我对在AWS中这样做不感兴趣。继续订购K80。我会在它到达时更新它，我可以尝试一些本地

我想使用Huggingface的变形金刚对GPT-2模型进行微调。最好是中等型号，但如果可能，则为大型号。目前，我有一个RTX2080TI和11GB的内存，我可以训练的小模型刚刚好

我的问题是：如果我在我的机器上添加一个旧的特斯拉K80（24GB）并分发培训，我会遇到任何问题吗？我找不到有关在培训期间使用不同容量GPU的信息以及可能遇到的问题

我的型号大小限制实际上是所有可用GPU内存的总和吗？（35GB？）

我对在AWS中这样做不感兴趣。

继续订购K80。我会在它到达时更新它，我可以尝试一些本地异构多GPU培训！K80安装和运行。系统可以看到两个分别为11GB的GPU。当我开始训练时，我会得到一个警告。“您的GPU之间存在不平衡。您可能希望排除GPU 1，该GPU 1的内存或核心少于GPU 0的75%。”据我所知，这不会导致任何问题；但是，我无法加载介质GPT2而不出现OOM错误。有没有办法在我的3个GPU（每个GPU有11GB）上拆分它？看起来只有在我尝试在8xV100（每个16GB）上运行345M，在AWS上批处理大小为1时，才真正支持模型并行化，但出现OOM错误。该模型试图在每个GPU中分配超过16GB的内存。你是如何解决这个问题的？有没有办法将2个GPU视为一个GPU？