Python 我应该使用fp16张量来利用张量核吗?

Python 我应该使用fp16张量来利用张量核吗?,python,deep-learning,pytorch,hardware,Python,Deep Learning,Pytorch,Hardware,我正在尝试在AWS上使用V100机器。官方网站表示,它为机器学习应用程序提供了超过100Tflop的速度,但它的运行速度似乎没有使用过的1080ti快 最近,我发现一篇文章说tensor core在fp16 tensor上运行 那么,我应该为张量指定数据类型吗 tensor\u a=torch.tensor([1,2,3.],dtype=torch.float16) 而不是: tensor\u a=torch.tensor([1,2,3])?您确定您的瓶颈在模型中吗?是的,你需要混合精度。考虑使

我正在尝试在AWS上使用V100机器。官方网站表示,它为机器学习应用程序提供了超过100Tflop的速度,但它的运行速度似乎没有使用过的1080ti快

最近,我发现一篇文章说tensor core在fp16 tensor上运行

那么,我应该为张量指定数据类型吗

tensor\u a=torch.tensor([1,2,3.],dtype=torch.float16)

而不是:


tensor\u a=torch.tensor([1,2,3])

您确定您的瓶颈在模型中吗?是的,你需要混合精度。考虑使用Nvidia。嗨,很难告诉你什么是瓶颈而不看代码。你能提供你在V100上运行的代码吗
fp16
对于backprop来说是出了名的痛苦,正如@Berriel所建议的,看看NVIDIA apex,混合精度训练可以让你的生活更轻松。嗨,@iacolippo,谢谢你的回复。这只是一个简单的问题。今天我试着用apex.amp包装网络,我成功地使它快了很多。太棒了。非常感谢你,@Berriel。你救了我。嘿,很高兴知道!你介意分享一下你的加速吗?如果你感到慷慨,你甚至可以回答你自己的问题,说明你做了什么:)这肯定会让更多的人受益。