Python Numpy性能-向量与其转置的外积
我的理解是,向量与其转置的外积在值上是对称的Python Numpy性能-向量与其转置的外积,python,numpy,vector,transpose,Python,Numpy,Vector,Transpose,我的理解是,向量与其转置的外积在值上是对称的 Numpy是只对输出的上三角部分进行乘法,还是计算整个输出矩阵,即使它是对称的,时间+内存可能会浪费?探索一些替代方案: In [162]: x=np.arange(100) In [163]: np.outer(x,x) Out[163]: array([[ 0, 0, 0, ..., 0, 0, 0], [ 0, 1, 2, ..., 97, 98, 99],
Numpy是只对输出的上三角部分进行乘法,还是计算整个输出矩阵,即使它是对称的,时间+内存可能会浪费?探索一些替代方案:
In [162]: x=np.arange(100)
In [163]: np.outer(x,x)
Out[163]:
array([[ 0, 0, 0, ..., 0, 0, 0],
[ 0, 1, 2, ..., 97, 98, 99],
[ 0, 2, 4, ..., 194, 196, 198],
...,
[ 0, 97, 194, ..., 9409, 9506, 9603],
[ 0, 98, 196, ..., 9506, 9604, 9702],
[ 0, 99, 198, ..., 9603, 9702, 9801]])
In [164]: x1=x[:,None]
In [165]: x1*x1.T
Out[165]:
array([[ 0, 0, 0, ..., 0, 0, 0],
[ 0, 1, 2, ..., 97, 98, 99],
[ 0, 2, 4, ..., 194, 196, 198],
...,
[ 0, 97, 194, ..., 9409, 9506, 9603],
[ 0, 98, 196, ..., 9506, 9604, 9702],
[ 0, 99, 198, ..., 9603, 9702, 9801]])
In [166]: np.dot(x1,x1.T)
Out[166]:
array([[ 0, 0, 0, ..., 0, 0, 0],
[ 0, 1, 2, ..., 97, 98, 99],
[ 0, 2, 4, ..., 194, 196, 198],
...,
[ 0, 97, 194, ..., 9409, 9506, 9603],
[ 0, 98, 196, ..., 9506, 9604, 9702],
[ 0, 99, 198, ..., 9603, 9702, 9801]])
比较他们的时代:
In [167]: timeit np.outer(x,x)
40.8 µs ± 63.1 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
In [168]: timeit x1*x1.T
36.3 µs ± 22 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
In [169]: timeit np.dot(x1,x1.T)
60.7 µs ± 6.86 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
dot使用转置捷径吗?我不这么认为,或者如果它真的这样做了,在这种情况下也没有帮助。我有点惊讶,圆点跑得慢
In [170]: x2=x1.T
In [171]: timeit np.dot(x1,x2)
61.1 µs ± 30 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
另一种方法
In [172]: timeit np.einsum('i,j',x,x)
28.3 µs ± 19.4 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)
带有x1和x2的einsum具有相同的时间
有趣的是,matmul和einsum做得一样好。在这种情况下,einsum可能会委托给matmul
演示dot如何通过巧妙地使用1000x1000阵列来节省时间
正如链接中所讨论的,dot可以通过检查数据缓冲区指针、形状和步幅来检测何时一个参数是另一个参数的转置,并且可以使用针对对称计算优化的BLAS函数。但我看不到有证据表明外星生物会这么做。广播乘法不太可能采取这样的步骤。你把外积叫做什么?据我所知,两个向量的外积不是对称的。谢谢,我编辑了这个问题。我指的是一个向量的外积和它自己的转置:a*a.t什么是向量?这在numpy中并没有正式定义,请给出一个计算示例。做一些时间测试。点可以检测转置,比如用n,1和1,n@hpaulj根据这个链接,dot产品已经做到了这一点,但不确定外部产品:非常感谢您的详细分析。。。到目前为止,matmul和einsum似乎比其他替代品更快。。。我想知道当我们将数据扩展到数百万个32位浮点值时,它们是否保持快速。。。
In [178]: timeit x1@x2
27.3 µs ± 1.09 µs per loop (mean ± std. dev. of 7 runs, 10000 loops each)
In [179]: timeit x1@x1.T
27.2 µs ± 14.2 ns per loop (mean ± std. dev. of 7 runs, 10000 loops each)