Python CPU（numpy）和GPU（gnumpy）上的矩阵乘法给出不同的结果_Python_Numpy_Cuda_Precision

Python CPU（numpy）和GPU（gnumpy）上的矩阵乘法给出不同的结果

python numpy cuda

Python CPU（numpy）和GPU（gnumpy）上的矩阵乘法给出不同的结果,python,numpy,cuda,precision,Python,Numpy,Cuda,Precision,我用GPU来加速神经网络训练中的一些计算。我得到了期望的加速，但是我有点担心numpy（cpu）和gnumpy（gpu）的结果的差异我有以下测试脚本来说明这个问题： import gnumpy as gpu import numpy as np n = 400 a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32) b = np.random.uniform(low=0., high=1., size=

我用GPU来加速神经网络训练中的一些计算。我得到了期望的加速，但是我有点担心numpy（cpu）和gnumpy（gpu）的结果的差异

我有以下测试脚本来说明这个问题：

import gnumpy as gpu
import numpy as np

n = 400

a = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)
b = np.random.uniform(low=0., high=1., size=(n, n)).astype(np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print ga.as_numpy_array(dtype=np.float32) - a

它提供了以下输出：

[[  1.52587891e-05  -2.28881836e-05   2.28881836e-05 ...,  -1.52587891e-05
    3.81469727e-05   1.52587891e-05]
 [ -5.34057617e-05  -1.52587891e-05   0.00000000e+00 ...,   1.52587891e-05
    0.00000000e+00   1.52587891e-05]
 [ -1.52587891e-05  -2.28881836e-05   5.34057617e-05 ...,   2.28881836e-05
    0.00000000e+00  -7.62939453e-06]
 ..., 
 [  0.00000000e+00   1.52587891e-05   3.81469727e-05 ...,   3.05175781e-05
    0.00000000e+00  -2.28881836e-05]
 [  7.62939453e-06  -7.62939453e-06  -2.28881836e-05 ...,   1.52587891e-05
    7.62939453e-06   1.52587891e-05]
 [  1.52587891e-05   7.62939453e-06   2.28881836e-05 ...,  -1.52587891e-05
    7.62939453e-06   3.05175781e-05]]

如您所见，差异大约为10^-5

所以问题是：我应该担心这些差异，还是这是预期的行为？

其他信息：

GPU:GeForce GTX 770
numpy版本：1.6.1

当我使用梯度检查（使用有限差分近似）来验证从numpy切换到gnumpy时，我注意到了这个问题。正如人们可能期望的那样，梯度检查不能以32位精度工作（gnumpy不支持float64），但令我惊讶的是，在使用相同精度时，CPU和GPU之间的错误有所不同

小型测试神经网络上CPU和GPU的误差如下所示：

由于误差大小是相似的，我想这些差异是可以的

在阅读了BenC的评论中提到的之后，我非常确定这些差异主要可以由一个使用fused multiply add（FMA）指令的设备和另一个不使用该指令的设备来解释

我实现了论文中的示例：

import gnumpy as gpu
import numpy as np

a=np.array([1.907607,-.7862027, 1.147311, .9604002], dtype=np.float32)
b=np.array([-.9355000, -.6915108, 1.724470, -.7097529], dtype=np.float32)

ga = gpu.garray(a)
gb = gpu.garray(b)

ga = ga.dot(gb)
a  = a.dot(b)

print "CPU", a
print "GPU", ga
print "DIFF", ga - a

>>>CPU 0.0559577
>>>GPU 0.0559577569366
>>>DIFF 8.19563865662e-08

…其差异与FMA与串行算法相似（尽管由于某些原因，两种结果与精确结果的差异比本文中更大）

我正在使用的GPU（GeForce GTX 770）支持FMA指令，而CPU不支持（我有一个常春藤桥Intel®Xeon（R）CPU E3-1225 V2，但Intel在Haswell的产品中引入了FMA3指令）

其他可能的解释包括后台使用的不同数学库，或者由于CPU与GPU的并行程度不同而导致的操作序列差异。

我建议使用

np.allclose

测试两个浮点数组是否几乎相等

虽然您只查看两个结果数组中的值之间的绝对差异，

np.allclose

也会考虑它们的相对差异。例如，假设输入数组中的值大1000倍，那么两个结果之间的绝对差值也会大1000倍，但这并不意味着两个点积的精度会降低

np.allclose

将返回

True

，前提是两个测试数组中的每个对应元素对都满足以下条件，

和

：

abs(a - b) <= (atol + rtol * abs(b))

abs（a-b）RTX卡以半精度进行浮点运算，因为它的图像渲染速度更快。您必须告诉GPU在为AI乘以浮点时使用全精度。在进行人工智能时，精度非常重要
我遇到了与您尝试将Cuda与RTX 2080 Ti一起使用时相同的浮点差异。
这里有一个很好的读物：10^-5的差异可以忽略不计，也可以很大，这取决于您的输入数据。输入数据的数量级是多少？@supercube差异取决于输入的数量级。在测试脚本中，输入在间隔[0,1]内；输出的大小约为10^2。