Python 加速cython代码
我有一些用python编写的代码,希望使用cython来加速计算。我复制的函数位于.pyx文件中,并从python代码中调用。五、 C,train,I_k是二维numpy数组,lambda_,user,hidden是int。 我没有任何使用C或cython的经验。什么是高效的 使代码更快的方法。 使用Python 加速cython代码,python,numpy,cython,Python,Numpy,Cython,我有一些用python编写的代码,希望使用cython来加速计算。我复制的函数位于.pyx文件中,并从python代码中调用。五、 C,train,I_k是二维numpy数组,lambda_,user,hidden是int。 我没有任何使用C或cython的经验。什么是高效的 使代码更快的方法。 使用cython-a进行编译表明代码有缺陷,但如何改进它。在prange中为i使用(用户大小,nogil=True): 如果没有gil,则不允许构造Python切片对象 如何修改代码以获得cython的
cython-a
进行编译表明代码有缺陷,但如何改进它。在prange中为i使用(用户大小,nogil=True):
如果没有gil,则不允许构造Python切片对象
如何修改代码以获得cython的威力
@cython.boundscheck(False)
@cython.wraparound(False)
def u_update(V, C, train, I_k, lambda_u, user, hidden):
cdef int user_size = user
cdef int hidden_dim = hidden
cdef np.ndarray U = np.empty((hidden_dim,user_size), float)
cdef int m = C.shape[1]
for i in range(user_size):
C_i = np.zeros((m, m), dtype=float)
for j in range(m):
C_i[j,j]=C[i,j]
U[:,i] = np.dot(np.linalg.inv(np.dot(V, np.dot(C_i,V.T)) + lambda_u*I_k), np.dot(V, np.dot(C_i,train[i,:].T)))
return U
首先想到的是,您没有键入函数参数并指定数据类型和维度数,如下所示:
def u_update(np.ndarray[np.float64, ndim=2]V, np.ndarray[np.float64, ndim=2]\
C, np.ndarray[np.float64, ndim=2] train, np.ndarray[np.float64, ndim=2] \
I_k, int lambda_u, int user, int hidden) :
这将大大加快使用2个索引进行索引的速度,就像您在内部循环中所做的那样
最好也对数组U
执行此操作,尽管您正在使用切片:
cdef np.ndarray[np.float64, ndim=2] U = np.empty((hidden_dim,user_size), np.float64)
接下来,您将重新定义C_i
,一个大的2-D数组,每次外部循环迭代一次。此外,您还没有为它提供任何类型信息,如果Cython要提供任何加速,这是必须的。要解决此问题,请执行以下操作:
cdef np.ndarray[np.float64, ndim=2] C_i = np.zeros((m, m), dtype=np.float64)
for i in range(user_size):
C_i.fill(0)
在这里,我们定义了它一次(使用类型信息),并通过填充零来重用内存,而不是每次调用np.zeros()
来创建一个新数组
此外,您可能希望仅在完成调试后关闭边界检查
如果在U[[,i]=…/Cux>步骤中需要加速,可以考虑用Cython编写另一个函数来使用循环执行这些操作。< /P>
一定要阅读这篇文章,它会让你知道在Cython中使用Numpy数组时应该做什么,不应该做什么,同时也会让你了解通过这些简单的更改可以获得多大的加速。
你正试图通过潜入池底来使用Cython
。你应该从一些小的东西开始,比如一些numpy的例子。甚至尝试改进np.diag
i = 0
C_i = np.zeros((m, m), dtype=float)
for j in range(m):
C_i[j,j]=C[i,j]
五,
你能提高这个简单表达式的速度吗<代码>诊断
未编译,但它确实执行有效的索引赋值
res[:n-k].flat[i::n+1] = v
但是,cython
的真正问题是这个表达式:
U[:,i] = np.dot(np.linalg.inv(np.dot(V, np.dot(C_i,V.T)) + lambda_u*I_k), np.dot(V, np.dot(C_i,train[i,:].T)))
np.dot
已编译cython
不会将其转换为c
code,也不会将所有5个dots
合并为一个表达式。它也不会触及inv
。因此,在最好的情况下,cython
将加快迭代包装器的速度,但它仍然会调用这个Python表达式m
次
我的猜测是这个表达式可以被清除。用einsum
替换内部dots
可能会消除C_i
的需要。inv
可能会使整个事情难以“矢量化”。但我还得进一步研究
但是如果您想坚持使用cython
路线,则需要将U
表达式转换为简单的迭代代码,而不需要调用诸如dot
和inv
之类的numpy函数
===================
我相信以下几点是相当的:
np.dot(C_i,V.T)
C[i,:,None]*V.T
在:
如果train
是2d,那么train[i,:]
是1d,.T
什么也不做
In [289]: np.dot(np.diag([1,2,3]),np.arange(3))
Out[289]: array([0, 2, 6])
In [290]: np.array([1,2,3])*np.arange(3)
Out[290]: array([0, 2, 6])
如果我没弄错,你就不需要ci
======================
此外,这些计算可以移动到循环之外,表达式如下(未测试)
下一步是将两个np.dot(V,CV…
移出循环。可能需要np.matmul
(@)或np.einsum
。那我们就有
for i...
I = np.linalg.inv(VCV1[i,...])
U[:,i] = np.dot(I+ lambda_u), VCV2[i,])
甚至
for i...
I[...i] = np.linalg.inv(...) # if inv can't be vectorized
U = np.einsum(..., I+lambda_u, VCV2)
这是一个粗略的草图,细节需要解决。用户大小的典型值是什么?我认为,不确定您是否可以提高执行速度,因为您主要在已编译/优化的代码中使用
numpy
。你分析过你的代码吗?U
表达式太复杂了,cython
无法加速。C_i
可以通过diagonal
功能完成。user_size
约为1000。不,我还没有分析代码。我第一次使用np.diag
函数来计算C_I
,但我希望使用并行循环会更快。因此,为了加快计算速度,我必须重写U
的计算?这可以通过广义的ufuncnumpy.linalg.solve
来加速<代码>点(inv(A),B)可以通过求解(A,B)
来计算。并且对角矩阵的点可以被多次广播所代替。如果你提供一些测试数据,我可以告诉你怎么做。是的,你是对的。我不需要计算ci
。这样,程序的速度已经提高了3-4倍。将计算(CV1
和CV2=C*列车
)移到外部尚未导致改进。你的上一个建议我还没有测试过。你关于数据类型的建议当然是正确的,但在我的例子中没有明显的收获,因为大部分时间都花在计算U[:,I]
上。这是可以理解的。然而,我的回答并不是为了优化这段特定的代码,而(正确地)接受的答案已经涵盖了这段代码。这些都是很好的实践,我强烈建议您在将来使用Cython时遵循这些实践。由于我不能对另一个答案发表评论,我也建议使用np.linalg.solve(A,b)
而不是dot(inv(A,b)
,因为这将得到比求逆和乘法少得多的结果。祝你快乐!
CV1 = C[:,:,None]*V.T # a 3d array
CV2 = C * train.T
for i in range(user_size):
U[:,i] = np.dot(np.linalg.inv(np.dot(V, CV1[i,...]) + lambda_u*I_k), np.dot(V, CV2[i,...]))
for i...
I = np.linalg.inv(VCV1[i,...])
U[:,i] = np.dot(I+ lambda_u), VCV2[i,])
for i...
I[...i] = np.linalg.inv(...) # if inv can't be vectorized
U = np.einsum(..., I+lambda_u, VCV2)