Python 通过检测NaN出现的位置,对其他列进行数学运算,从而在列中填充NaN

Python 通过检测NaN出现的位置,对其他列进行数学运算,从而在列中填充NaN,python,pandas,dataframe,Python,Pandas,Dataframe,我的数据框包含数百列。幸运的是,它们可以分为两大组,并具有规则的列名。组1包含列Pdc、Pdc.1、Pdc.2。。。。Pdc.250。第2组包括Pac、Pac.1、Pac.2。。。。Pac.250。请注意,每组的第一列不包含后缀编号 我想使用以下规则填充所有NaN,无论它们位于何处: 第1组(目标列和行)中列的任何行中的NaN将由第2组中列的值填充,其顺序相同(源列和行)乘以目标列的平均值除以源列的平均值 为了简单起见,例如,如果NaN位于Pdc.25第10行(第1组),则应填写: Pdc.25

我的数据框包含数百列。幸运的是,它们可以分为两大组,并具有规则的列名。组1包含列Pdc、Pdc.1、Pdc.2。。。。Pdc.250。第2组包括Pac、Pac.1、Pac.2。。。。Pac.250。请注意,每组的第一列不包含后缀编号

我想使用以下规则填充所有NaN,无论它们位于何处:
第1组(目标列和行)中列的任何行中的NaN将由第2组中列的值填充,其顺序相同(源列和行)乘以目标列的平均值除以源列的平均值

为了简单起见,例如,如果NaN位于Pdc.25第10行(第1组),则应填写:
Pdc.25第10行=Pac.25第10行*(平均Pdc.25/平均Pac.25)

如果NaN在第2组中,则公式如下:
Pac.30第15行=Pdc.30第15行*(平均Pac.30/平均Pdc.30)

我写了以下代码:

df['Pdc.25'] = (df['Pdc.25'].fillna(df['Pac.25']*((df['Pdc.25'].mean()/df['Pac.25'].mean())))).to_frame()
df['Pac.30'] = (df['Pac.30'].fillna(df['Pdc.30']*((df['Pac.30'].mean()/df['Pdc.30'].mean())))).to_frame()
上面的代码工作得很好,但对于500列,我必须写出500行方程式

你知道如何使它变得简单吗,例如,通过自动定位NAN并根据规则填充它们


感谢您查看我的问题。

根据您的命名约定,确保列已排序,并使用
.values
对齐操作。可以使用
.where
填充所有内容。如果您希望在缺少列的情况下更安全(即,您有Pac.31,但没有Pdc.31),则映射操作的列名,以确保对齐

import pandas as pd
#df = df.sort_index(axis=1)

pac = df.filter(like='Pac')
pdc = df.filter(like='Pdc')

df_res = pd.concat([pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values),
                    pdc.where(pdc.notnull(), pac.multiply(pdc.mean().div(pac.mean().values).values).values)
                    ], axis=1)
输出
df\u res
: 样本数据
说明: 第一步是对列进行排序,然后筛选以字符串
'Pac'
'Pdc'
开头的列。因为我们对索引进行了排序,这保证了排序是一致的(只要组中的后缀集是相同的)

现在我们可以做数学了。忽略<代码> .fILNA < /Cord>逻辑,只考虑计算我们将要填写的<强>所有< <强> >。代码>数据帧操作在索引上对齐(行和列)。您可以看到
pac
pdc
共享行索引,但列索引(列名)不同,这会导致问题:

pac.mean()
#Pac      3.888889
#Pac.1    4.500000
#Pac.2    3.714286
#dtype: float64

pdc.mean()
#Pdc      5.000000
#Pdc.1    3.714286
#Pdc.2    3.000000
#dtype: float64

pac.mean().div(pdc.mean())
#Pac     NaN
#Pac.1   NaN
#Pac.2   NaN
#Pdc     NaN
#Pdc.1   NaN
#Pdc.2   NaN
但是,由于我们之前进行了排序,我们可以看到
值是对齐的,因此我们安全地划分每一列意味着访问值数组。这给出了每个
Pac
列的平均值除以相应
Pdc
列的平均值

pac.mean().div(pdc.mean().values)
#Pac      0.777778
#Pac.1    1.211538
#Pac.2    1.238095
#dtype: float64
乘法具有相同的对齐问题,因此再次访问值,现在这给了我们一个
数据帧
,与子集的形状相同,如果值为空,我们应该填充什么:

pdc.multiply(pac.mean().div(pdc.mean().values).values)
#        Pdc     Pdc.1     Pdc.2
#0       NaN       NaN  2.476190
#1  1.555556  2.423077  1.238095
#...
最后,
fillna
逻辑通过
where
完成,因为我们有两个
数据帧

pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values)
可以理解为“在pac中使用不为null的值,否则使用计算中的值”,这正是我们想要的。同样,我们需要访问
中的'other'(第二个参数)的
.values
,因为列名不一样,但值是对齐的


分别为每个组执行此操作,然后将其重新加入

老实说,我不明白你的代码是如何工作的,但它与我的数据完美结合。非常感谢。@k.koen,如果您愿意,我很高兴在解决方案中添加更多的解释。否则,也许一次只需遍历一小部分就可以看到发生了什么(测试
pac.mean().div(pdc.mean().values)之类的内容)
并查看它返回的内容。最棘手的部分可能是,尽管它是一个非常方便的函数。出于学习目的,如果您愿意解释它是如何工作的,我将非常高兴。谢谢您进一步的建议。
pac.mean().div(pdc.mean().values)
#Pac      0.777778
#Pac.1    1.211538
#Pac.2    1.238095
#dtype: float64
pdc.multiply(pac.mean().div(pdc.mean().values).values)
#        Pdc     Pdc.1     Pdc.2
#0       NaN       NaN  2.476190
#1  1.555556  2.423077  1.238095
#...
pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values)