Python中具有nan值的数组之间的平均值

Python中具有nan值的数组之间的平均值,python,arrays,numpy,average,nan,Python,Arrays,Numpy,Average,Nan,我有三个Python数组 a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]]) b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]]) c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]]

我有三个Python数组

a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
其中,我需要计算平均值以获得以下数组:

>>> myavg 
array([[ 10.,  10,  10.,  10.],
       [ 10,  10.,  10.,  10.],
       [ 10.,  10.,  nan,  10.]])
第一步是转换新[0,1]数组中的数组并求和(即3=每个数组中的数据,2=两个数组中的数据,1=olny一个数组中的数据,0=无数据)

第二个是对所有原始数组求和,然后除以dd

c = a+b+c
>>> c
array([[ 30.,  nan,  30.,  30.],
       [ nan,  nan,  30.,  nan],
       [ 30.,  30.,  nan,  30.]])

问题很明显。当我把一个值和nan求和时,我得到了nan。我无法将nan转换为“0”,因为在我的实际情况中,0是一个值(即温度)

您可以将
a
b
c
放入一个三维数组中,然后使用:


出现警告是因为在一种情况下,所有被平均的值都是nan。

简单,只需在计算dd之后,但在计算c之前,将nan设置为零。这样,在c中NaN将被忽略,您将获得所需的平均值

将NaN设置为零的简单方法是:

然而,还有一个问题,即您的dd矩阵在索引[2,2]处为零。要解决这个问题,只需将其设置为NaN(因为如果dd条目为零,那么我们可以忽略此平均值/此索引没有平均值)

以下是有效的代码:

import numpy as np
from numpy import nan

a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])

aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc
dd[dd == 0] = nan

c = np.nan_to_num(a) + np.nan_to_num(b) + np.nan_to_num(c)

your_avg = c / dd

$your_avg
array([[ 10.,  10.,  10.,  10.],
   [ 10.,  10.,  10.,  10.],
   [ 10.,  10.,  nan,  10.]])
另一条建议。如果可以将数据重新格式化为12个数组,每个数组包含三个条目,则可以使用:


或者像沃伦建议的那样,把它放到一个3d阵列中。那太圆滑了

这将很好地使用
屏蔽数组

将3个组合到阵列上(3d):

第一个轴上的平均值是您想要的-除了
nan
传播

In [258]: abc.mean(axis=0)
Out[258]: 
array([[ 10.,  nan,  10.,  10.],
       [ nan,  nan,  10.,  nan],
       [ 10.,  10.,  nan,  10.]])
制作一个屏蔽数组,屏蔽掉
nan

In [259]: abcm=np.ma.masked_where(np.isnan(abc),abc)

In [260]: abcm
Out[260]: 
masked_array(data =
 [[[10.0 10.0 10.0 10.0]
  [10.0 -- 10.0 10.0]
  [10.0 10.0 -- 10.0]]

 [[10.0 10.0 10.0 10.0]
  [10.0 10.0 10.0 --]
  [10.0 10.0 -- 10.0]]

 [[10.0 -- 10.0 10.0]
  [-- 10.0 10.0 --]
  [10.0 10.0 -- 10.0]]],
             mask =
 [[[False False False False]
  [False  True False False]
  [False False  True False]]

 [[False False False False]
  [False False False  True]
  [False False  True False]]

 [[False  True False False]
  [ True False False  True]
  [False False  True False]]],
       fill_value = 1e+20)
现在我可以在不影响值的情况下取平均值,除了所有值都是
nan
的单元格

In [261]: abcm.mean(axis=0)
Out[261]: 
masked_array(data =
 [[10.0 10.0 10.0 10.0]
 [10.0 10.0 10.0 10.0]
 [10.0 10.0 -- 10.0]],
             mask =
 [[False False False False]
 [False False False False]
 [False False  True False]],
       fill_value = 1e+20)
然后返回填充了
的规则数组

In [262]: abcm.mean(axis=0).filled(np.nan)
Out[262]: 
array([[ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  nan,  10.]])
In [259]: abcm=np.ma.masked_where(np.isnan(abc),abc)

In [260]: abcm
Out[260]: 
masked_array(data =
 [[[10.0 10.0 10.0 10.0]
  [10.0 -- 10.0 10.0]
  [10.0 10.0 -- 10.0]]

 [[10.0 10.0 10.0 10.0]
  [10.0 10.0 10.0 --]
  [10.0 10.0 -- 10.0]]

 [[10.0 -- 10.0 10.0]
  [-- 10.0 10.0 --]
  [10.0 10.0 -- 10.0]]],
             mask =
 [[[False False False False]
  [False  True False False]
  [False False  True False]]

 [[False False False False]
  [False False False  True]
  [False False  True False]]

 [[False  True False False]
  [ True False False  True]
  [False False  True False]]],
       fill_value = 1e+20)
In [261]: abcm.mean(axis=0)
Out[261]: 
masked_array(data =
 [[10.0 10.0 10.0 10.0]
 [10.0 10.0 10.0 10.0]
 [10.0 10.0 -- 10.0]],
             mask =
 [[False False False False]
 [False False False False]
 [False False  True False]],
       fill_value = 1e+20)
In [262]: abcm.mean(axis=0).filled(np.nan)
Out[262]: 
array([[ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  10.,  10.],
       [ 10.,  10.,  nan,  10.]])