Python 在numpy阵列v/s映射函数上循环？_Python_Numpy_Regression_Timeit

Python 在numpy阵列v/s映射函数上循环？

python numpy

Python 在numpy阵列v/s映射函数上循环？,python,numpy,regression,timeit,Python,Numpy,Regression,Timeit,我有一个提高速度/可读性的问题。在矩阵Y中有N个长度为T的时间序列（dim=TxN）。我还有一个3D矩阵X，它是TxNxK 数据有一些随机NaN值。给定一个回归窗口（W），目标是使用截至X的数据创建Y的预测。考虑到对于任何单个Y时间序列，回归应超过最后可用的W变量值。这意味着您需要所有X变量和相应的Y系列变量，但不关心其他Y变量我可以用下面的代码实现这一点，但是我觉得可能有一种方法可以删除循环。我尝试使用map和函数，但得到了类似的timeit值，可读性较差 import random im

我有一个提高速度/可读性的问题。在矩阵Y中有N个长度为T的时间序列（dim=TxN）。我还有一个3D矩阵X，它是TxNxK

数据有一些随机NaN值。

给定一个回归窗口（W），目标是使用截至X的数据创建Y的预测。考虑到对于任何单个Y时间序列，回归应超过最后可用的W变量值。这意味着您需要所有X变量和相应的Y系列变量，但不关心其他Y变量

我可以用下面的代码实现这一点，但是我觉得可能有一种方法可以删除循环。我尝试使用map和函数，但得到了类似的timeit值，可读性较差

import random import numpy as np from numpy.linalg import inv # Parameters N = 500 #Number of time series T = 1000 #Length of each time series W = 72 #Regression window K = 3 #Numer of independent variables Y = np.random.randn(T, N) X = np.random.randn(T, N, K) # Add the constants X = np.concatenate((X, np.ones((T, N, 1))), axis=2) def get_rand_arr(arr, frac_rand=0.0001): ix = [(row, col) for row in range(arr.shape[0]) for col in range(arr.shape[1])] for row, col in random.sample(ix, int(round(frac_rand*len(ix)))): arr[row, col] = np.nan return arr # Insert some NaN values - like the real world - I dont care about this loop Y = get_rand_arr(Y) for i in range(X.shape[2]): X[:, :, i] = get_rand_arr(X[:, :, i]) X_mask = np.apply_along_axis(np.any, 1, np.apply_along_axis(np.any, 2, np.isnan(X))) Y_mask = np.concatenate([np.logical_or(np.isnan(Y)[:, i],X_mask).reshape(-1,1) for i in range(N)],axis=1) Y_hat = np.NaN*np.zeros((T, N)) for j in range(N): y = Y[~Y_mask[:, j], j] x = X[~Y_mask[:, j], j, :] y_hat = np.NaN*np.zeros(y.shape[0]) for i in range(y_hat.shape[0]-W): y_hat[i+W] = x[i+W, :].dot(inv(x[i:i+W, :].T.dot(x[i:i+W, :])).dot(x[i:i+W, :].T.dot(y[i:i+W]))) Y_hat[~Y_mask[:, j], j] = y_hat
我得到了下面的timeit结果

%%timeit Y_hat = np.NaN*np.zeros((T, N)) for j in range(N): y = Y[~Y_mask[:, j], j] x = X[~Y_mask[:, j], j, :] y_hat = np.NaN*np.zeros(y.shape[0]) for i in range(y_hat.shape[0]-W): y_hat[i+W] = x[i+W, :].dot(inv(x[i:i+W, :].T.dot(x[i:i+W, :])).dot(x[i:i+W, :].T.dot(y[i:i+W]))) Y_hat[~Y_mask[:, j], j] = y_hat 9.5 s ± 373 ms per loop (mean ± std. dev. of 7 runs, 1 loop each)

时间序列足够长，回归窗口足够小，我实际上不需要担心是否有足够的值来运行至少一次回归。
如果必须迭代，请使用
nditer
。但是，如果将逻辑放入函数中，则可以使用
apply_沿_轴
或
vectorize
来消除for循环。医生来了，谢谢你，伊万罗西卡！我会再看一遍的，不客气。这可能也很有趣：“在numpy数组上映射函数的最有效方法”：这也是非常有用的。我看到的唯一问题是，我的Y-hat值来自不同numpy数组的不同切片。大多数示例在处理单个numpy对象时都能很好地工作。也许您可以将相关切片连接到单个数组中，然后使用一些方法？