Python 用中位数替换NaN值？_Python_Pandas_Numpy_Data Cleaning

Python 用中位数替换NaN值？

python pandas numpy

Python 用中位数替换NaN值？,python,pandas,numpy,data-cleaning,Python,Pandas,Numpy,Data Cleaning,所以我试图用Pandas来替换表中的所有NaN值，用特定范围内的中值。我正在处理一个更大的数据集，例如 np.random.seed(0) rng = pd.date_range('2020-09-24', periods=20, freq='0.2H') df = pd.DataFrame({ 'Date': rng, 'Val': np.random.randn(len(rng)), 'Dist' :np.random.randn(len(rng)) }) df.Dist[df.Dist&

所以我试图用Pandas来替换表中的所有NaN值，用特定范围内的中值。我正在处理一个更大的数据集，例如

np.random.seed(0)
rng = pd.date_range('2020-09-24', periods=20, freq='0.2H')
df = pd.DataFrame({ 'Date': rng, 'Val': np.random.randn(len(rng)), 'Dist' :np.random.randn(len(rng)) }) 
df.Dist[df.Dist<=-0.6] = np.nan
df.Val[df.Val<=-0.5] = np.nan

但是现在我已经以各种形式尝试了下面的所有命令，无法解决如何填充NaN值

df[["Val","Hour"]].mask(df['Val'].isna(), df_val.iloc[df.Hour], inplace=True)

df.where(df['Val'].notna(), other=df_val[df.Hour],axis = 0)

df["Val"] = np.where(df['Val'].notna(), df['Val'], df_val(df.Hour))

df.replace({"Val":{np.nan:df_val[df.Hour]}, "Dist":{np.nan:df_dist[df.Hour]}})

您可以使用

groupby.transform

和fillna：

cols = ['Val','Dist']
df[cols] =  df[cols].fillna(df.groupby(df.Date.dt.floor('H'))
                              [cols].transform('median')
                           )

输出：

                  Date       Val      Dist
0  2020-09-24 00:00:00  1.764052  0.864436
1  2020-09-24 00:12:00  0.400157  0.653619
2  2020-09-24 00:24:00  0.978738  0.864436
3  2020-09-24 00:36:00  2.240893  0.864436
4  2020-09-24 00:48:00  1.867558  2.269755
5  2020-09-24 01:00:00  0.153690  0.757559
6  2020-09-24 01:12:00  0.950088  0.045759
7  2020-09-24 01:24:00 -0.151357 -0.187184
8  2020-09-24 01:36:00 -0.103219  1.532779
9  2020-09-24 01:48:00  0.410599  1.469359
10 2020-09-24 02:00:00  0.144044  0.154947
11 2020-09-24 02:12:00  1.454274  0.378163
12 2020-09-24 02:24:00  0.761038  0.154947
13 2020-09-24 02:36:00  0.121675  0.154947
14 2020-09-24 02:48:00  0.443863 -0.347912
15 2020-09-24 03:00:00  0.333674  0.156349
16 2020-09-24 03:12:00  1.494079  1.230291
17 2020-09-24 03:24:00 -0.205158  1.202380
18 2020-09-24 03:36:00  0.313068 -0.387327
19 2020-09-24 03:48:00  0.323371 -0.302303

您可以使用

groupby->transform

操作，同时还可以使用

pd.Grouper

类执行每小时的转换。这将基本上创建一个数据帧，其形状与使用每小时中间值的原始数据帧相同。一旦有了它，就可以直接使用

DataFrame.fillna

hourly_medians = df.groupby(pd.Grouper(key="Date", freq="H")).transform("median")
out = df.fillna(hourly_medians)

print(out)

                  Date       Val      Dist
0  2020-09-24 00:00:00  1.764052  0.864436
1  2020-09-24 00:12:00  0.400157  0.653619
2  2020-09-24 00:24:00  0.978738  0.864436
3  2020-09-24 00:36:00  2.240893  0.864436
4  2020-09-24 00:48:00  1.867558  2.269755
5  2020-09-24 01:00:00  0.153690  0.757559
6  2020-09-24 01:12:00  0.950088  0.045759
7  2020-09-24 01:24:00 -0.151357 -0.187184
8  2020-09-24 01:36:00 -0.103219  1.532779
9  2020-09-24 01:48:00  0.410599  1.469359
10 2020-09-24 02:00:00  0.144044  0.154947
11 2020-09-24 02:12:00  1.454274  0.378163
12 2020-09-24 02:24:00  0.761038  0.154947
13 2020-09-24 02:36:00  0.121675  0.154947
14 2020-09-24 02:48:00  0.443863 -0.347912
15 2020-09-24 03:00:00  0.333674  0.156349
16 2020-09-24 03:12:00  1.494079  1.230291
17 2020-09-24 03:24:00 -0.205158  1.202380
18 2020-09-24 03:36:00  0.313068 -0.387327
19 2020-09-24 03:48:00  0.323371 -0.302303

利用你所做的，我会这样做：

df.Val = df.Val.fillna(df.Hour.map(df_val.squeeze()))
df.Dist = df.Val.fillna(df.Hour.map(df_dist.squeeze()))

您可以为所需任务定义函数：

    def impute_nan(df,var,median):
        df['new_'+var] = df[var].fillna(median)
    median = df.Val.medain()
    median
    impute_nan(df,'Val',median)

这将为您提供一个名为“new_Val”的新coln，其中包含替换后的NAN值。

一个非常简洁的解决方案，您能否解释/链接详细信息，说明如何使用

groupby（）

，然后使用

transform（）

，中间只有一个间隙？另外，为什么

.transform（'median'））

比

更有效。median

？

。median

为每个组提供一个值，因此您将获得长度等于组数的数据帧/序列

transform

跨组重新填充值，因此您将收到与原始数据帧具有相同索引的数据帧/序列。由于您要重新分配到原始数据帧，

transform

工作得更好。如果我先压缩中间值，我的

where（）

或

replace（）

会起作用吗？不要这样认为，因为这里

df_val[df.Hour]

将整列值传递给

df_val

，这应该会引发错误。fillna（）希望得到一个标量、dict或级数，而.map（）无法通过它，因此这似乎不起作用

df.Hour.map（df_dist.squeeze（））

是一个级数，所以它实际上起作用

    def impute_nan(df,var,median):
        df['new_'+var] = df[var].fillna(median)
    median = df.Val.medain()
    median
    impute_nan(df,'Val',median)