Python 2.7 在列表列表上运行计算的最快方法_Python 2.7_Numpy_Numba

Python 2.7 在列表列表上运行计算的最快方法

python-2.7 numpy

Python 2.7 在列表列表上运行计算的最快方法,python-2.7,numpy,numba,Python 2.7,Numpy,Numba,我有一个这样的列表： import numpy as np import random import time import itertools N = 1000 x =np.random.random((N,N)) y = np.zeros((N,N)) z = np.random.random((N,N)) list_of_lists = [[x, y], [y,z], [z,x]] 对于每个子列表，我想计算非零的数量，平均值和标准偏差我是这样做的： distribution = [

我有一个这样的列表：

import numpy as np
import random
import time
import itertools

N = 1000
x =np.random.random((N,N))
y = np.zeros((N,N))
z = np.random.random((N,N))

list_of_lists = [[x, y], [y,z], [z,x]]

对于每个子列表，我想计算非零的数量，平均值和标准偏差

我是这样做的：

distribution = []
alb_mean = []
alb_std = []


start = time.time()

for i in range(len(list_of_lists)):

    one_mean = []
    non_zero_l = []
    one_list = list_of_lists[i]

    for n in one_list:


        #count non_zeros
        non_zero_count = np.count_nonzero(n)
        non_zero_l.append(non_zero_count)

        #assign nans
        n = n.astype(float)
        n[n == 0.0] = np.nan

        #flatten the matrix
        n = np.array(n.flatten())
        one_mean.append(n)

    #append means and stds
    distribution.append(sum(non_zero_l))
    alb_mean.append(np.nanmean(one_mean))
    alb_std.append(np.nanstd(one_mean))


end = time.time()
print "Loop took {} seconds".format((end - start))

这需要0.23秒

我尝试通过第二个选项加快速度：

distribution = []
alb_mean = []
alb_std = []


start = time.time()

for i in range(len(list_of_lists)):

    for_mean = []

    #get one list
    one_list = list_of_lists[i]

    #flatten the list
    chain = itertools.chain(*one_list)
    flat = list(chain)

    #count non_zeros
    non_zero_count = np.count_nonzero(flat)
    distribution.append(non_zero_count)

    #remove zeros
    remove_zero = np.setdiff1d(flat ,[0.0])
    alb_mean.append(np.nanmean(remove_zero))
    alb_std.append(np.nanstd(remove_zero))

end = time.time()
print "Loop took {} seconds".format((end - start))

这实际上比较慢，需要0.88秒

大量的循环让我想到有更好的方法来实现这一点。我尝试过

numba

，但它不喜欢在函数中添加附加。

Version#1

在使用loopy解决方案的示例中，您使用两个循环进行循环-一个是

迭代，另一个是

迭代。所以，它已经接近矢量化了。唯一的瓶颈是

append

步骤

完全矢量化，这里有一种方法-

a = np.array(list_of_lists, dtype=float)
zm = a!=0
avgs = np.einsum('ijkl,ijkl->i',zm,a)/zm.sum(axis=(1,2,3)).astype(float)

a[~zm] = np.nan
stds = np.nanstd(a, axis=(1,2,3))

使用与问题中相同的设置，以下是关于计时的内容-

Loop took 0.150925159454 seconds
Proposed solution took 0.121352910995 seconds

Loop took 0.155035018921 seconds
Proposed solution took 0.0648851394653 seconds

版本#2

我们可以使用

average

计算

std

，从而重复使用

avgs

进一步提升：

因此，需要修改版本-

a = np.asarray(list_of_lists)
zm = a!=0
N = zm.sum(axis=(1,2,3)).astype(float)
avgs = np.einsum('ijkl,ijkl->i',zm,a)/N

diffs = ((a-avgs[:,None,None,None])**2)
stds = np.sqrt(np.einsum('ijkl,ijkl->i',zm,diffs)/N)

更新时间-

Loop took 0.150925159454 seconds
Proposed solution took 0.121352910995 seconds

Loop took 0.155035018921 seconds
Proposed solution took 0.0648851394653 seconds

为什么要在列表列表上使用numpy函数？为什么不使用

numpy

数组呢？请原谅，我对numpy的世界还不熟悉，但我现在做的事情就是这样，因为列表中的数据代表numpy 2d矩阵，所以最好使用带零的

ints

输入数组。目前，对于

np.random.random（（N，N））

，它不太可能有任何零，因此像

np.count\u nonzero（N）

这样的计算是多余的。在我的实际数据中有0，也许我应该选择一个更好的例子matrixTry

np.random.randint（）

。