Python中具有nan值的数组之间的平均值
我有三个Python数组Python中具有nan值的数组之间的平均值,python,arrays,numpy,average,nan,Python,Arrays,Numpy,Average,Nan,我有三个Python数组 a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]]) b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]]) c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]]
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
其中,我需要计算平均值以获得以下数组:
>>> myavg
array([[ 10., 10, 10., 10.],
[ 10, 10., 10., 10.],
[ 10., 10., nan, 10.]])
第一步是转换新[0,1]数组中的数组并求和(即3=每个数组中的数据,2=两个数组中的数据,1=olny一个数组中的数据,0=无数据)
第二个是对所有原始数组求和,然后除以dd
c = a+b+c
>>> c
array([[ 30., nan, 30., 30.],
[ nan, nan, 30., nan],
[ 30., 30., nan, 30.]])
问题很明显。当我把一个值和nan求和时,我得到了nan。我无法将nan转换为“0”,因为在我的实际情况中,0是一个值(即温度)您可以将
a
、b
和c
放入一个三维数组中,然后使用:
出现警告是因为在一种情况下,所有被平均的值都是nan。简单,只需在计算dd之后,但在计算c之前,将nan设置为零。这样,在c中NaN将被忽略,您将获得所需的平均值 将NaN设置为零的简单方法是: 然而,还有一个问题,即您的dd矩阵在索引[2,2]处为零。要解决这个问题,只需将其设置为NaN(因为如果dd条目为零,那么我们可以忽略此平均值/此索引没有平均值) 以下是有效的代码:
import numpy as np
from numpy import nan
a = np.array([[10., 10., 10., 10.], [10., nan, 10., 10.], [10., 10., nan, 10.]])
b = np.array([[10., 10., 10., 10.], [10., 10., 10., nan], [10., 10.,nan, 10]])
c = np.array([[10., nan, 10., 10.], [nan, 10., 10., nan], [10., 10.,nan, 10]])
aa = a.copy()
bb = b.copy()
cc = c.copy()
aa[aa == 10.] = 1
aa[aa != 1] = 0
bb[bb == 10.] = 1
bb[bb != 1] = 0
cc[cc == 10.] = 1
cc[cc != 1] = 0
dd = aa + bb + cc
dd[dd == 0] = nan
c = np.nan_to_num(a) + np.nan_to_num(b) + np.nan_to_num(c)
your_avg = c / dd
$your_avg
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])
另一条建议。如果可以将数据重新格式化为12个数组,每个数组包含三个条目,则可以使用:
或者像沃伦建议的那样,把它放到一个3d阵列中。那太圆滑了 这将很好地使用
屏蔽数组
将3个组合到阵列上(3d):
第一个轴上的平均值是您想要的-除了nan
传播
In [258]: abc.mean(axis=0)
Out[258]:
array([[ 10., nan, 10., 10.],
[ nan, nan, 10., nan],
[ 10., 10., nan, 10.]])
制作一个屏蔽数组,屏蔽掉nan
:
In [259]: abcm=np.ma.masked_where(np.isnan(abc),abc)
In [260]: abcm
Out[260]:
masked_array(data =
[[[10.0 10.0 10.0 10.0]
[10.0 -- 10.0 10.0]
[10.0 10.0 -- 10.0]]
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 --]
[10.0 10.0 -- 10.0]]
[[10.0 -- 10.0 10.0]
[-- 10.0 10.0 --]
[10.0 10.0 -- 10.0]]],
mask =
[[[False False False False]
[False True False False]
[False False True False]]
[[False False False False]
[False False False True]
[False False True False]]
[[False True False False]
[ True False False True]
[False False True False]]],
fill_value = 1e+20)
现在我可以在不影响值的情况下取平均值,除了所有值都是nan
的单元格
In [261]: abcm.mean(axis=0)
Out[261]:
masked_array(data =
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 10.0]
[10.0 10.0 -- 10.0]],
mask =
[[False False False False]
[False False False False]
[False False True False]],
fill_value = 1e+20)
然后返回填充了的规则数组
:
In [262]: abcm.mean(axis=0).filled(np.nan)
Out[262]:
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])
In [259]: abcm=np.ma.masked_where(np.isnan(abc),abc)
In [260]: abcm
Out[260]:
masked_array(data =
[[[10.0 10.0 10.0 10.0]
[10.0 -- 10.0 10.0]
[10.0 10.0 -- 10.0]]
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 --]
[10.0 10.0 -- 10.0]]
[[10.0 -- 10.0 10.0]
[-- 10.0 10.0 --]
[10.0 10.0 -- 10.0]]],
mask =
[[[False False False False]
[False True False False]
[False False True False]]
[[False False False False]
[False False False True]
[False False True False]]
[[False True False False]
[ True False False True]
[False False True False]]],
fill_value = 1e+20)
In [261]: abcm.mean(axis=0)
Out[261]:
masked_array(data =
[[10.0 10.0 10.0 10.0]
[10.0 10.0 10.0 10.0]
[10.0 10.0 -- 10.0]],
mask =
[[False False False False]
[False False False False]
[False False True False]],
fill_value = 1e+20)
In [262]: abcm.mean(axis=0).filled(np.nan)
Out[262]:
array([[ 10., 10., 10., 10.],
[ 10., 10., 10., 10.],
[ 10., 10., nan, 10.]])