Python CPU(numpy)和GPU(gnumpy)上的矩阵乘法给出不同的结果
我用GPU来加速神经网络训练中的一些计算。 我得到了期望的加速,但是我有点担心numpy(cpu)和gnumpy(gpu)的结果的差异 我有以下测试脚本来说明这个问题:Python CPU(numpy)和GPU(gnumpy)上的矩阵乘法给出不同的结果,python,numpy,cuda,precision,Python,Numpy,Cuda,Precision,我用GPU来加速神经网络训练中的一些计算。 我得到了期望的加速,但是我有点担心numpy(cpu)和gnumpy(gpu)的结果的差异 我有以下测试脚本来说明这个问题: import gnumpy as gpu import numpy as np n = 400 a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32) b = np.random.uniform(low=0., high=1., size=
import gnumpy as gpu
import numpy as np
n = 400
a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print ga.as_numpy_array(dtype=np.float32) - a
它提供了以下输出:
[[ 1.52587891e-05 -2.28881836e-05 2.28881836e-05 ..., -1.52587891e-05
3.81469727e-05 1.52587891e-05]
[ -5.34057617e-05 -1.52587891e-05 0.00000000e+00 ..., 1.52587891e-05
0.00000000e+00 1.52587891e-05]
[ -1.52587891e-05 -2.28881836e-05 5.34057617e-05 ..., 2.28881836e-05
0.00000000e+00 -7.62939453e-06]
...,
[ 0.00000000e+00 1.52587891e-05 3.81469727e-05 ..., 3.05175781e-05
0.00000000e+00 -2.28881836e-05]
[ 7.62939453e-06 -7.62939453e-06 -2.28881836e-05 ..., 1.52587891e-05
7.62939453e-06 1.52587891e-05]
[ 1.52587891e-05 7.62939453e-06 2.28881836e-05 ..., -1.52587891e-05
7.62939453e-06 3.05175781e-05]]
如您所见,差异大约为10^-5
所以问题是:我应该担心这些差异,还是这是预期的行为?
其他信息:
- GPU:GeForce GTX 770李>
- numpy版本:1.6.1
import gnumpy as gpu
import numpy as np
a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)
ga = gpu.garray(a)
gb = gpu.garray(b)
ga = ga.dot(gb)
a = a.dot(b)
print "CPU", a
print "GPU", ga
print "DIFF", ga - a
>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08
…其差异与FMA与串行算法相似(尽管由于某些原因,两种结果与精确结果的差异比本文中更大)
我正在使用的GPU(GeForce GTX 770)支持FMA指令,而CPU不支持(我有一个常春藤桥Intel®Xeon(R)CPU E3-1225 V2,但Intel在Haswell的产品中引入了FMA3指令)
其他可能的解释包括后台使用的不同数学库,或者由于CPU与GPU的并行程度不同而导致的操作序列差异。我建议使用
np.allclose
测试两个浮点数组是否几乎相等
虽然您只查看两个结果数组中的值之间的绝对差异,np.allclose
也会考虑它们的相对差异。例如,假设输入数组中的值大1000倍,那么两个结果之间的绝对差值也会大1000倍,但这并不意味着两个点积的精度会降低
np.allclose
将返回True
,前提是两个测试数组中的每个对应元素对都满足以下条件,a
和b
:
abs(a - b) <= (atol + rtol * abs(b))
abs(a-b)RTX卡以半精度进行浮点运算,因为它的图像渲染速度更快。您必须告诉GPU在为AI乘以浮点时使用全精度。在进行人工智能时,精度非常重要
我遇到了与您尝试将Cuda与RTX 2080 Ti一起使用时相同的浮点差异。这里有一个很好的读物:10^-5的差异可以忽略不计,也可以很大,这取决于您的输入数据。输入数据的数量级是多少?@supercube差异取决于输入的数量级。在测试脚本中,输入在间隔[0,1]内;输出的大小约为10^2。