Python 通过检测NaN出现的位置，对其他列进行数学运算，从而在列中填充NaN_Python_Pandas_Dataframe

Python 通过检测NaN出现的位置，对其他列进行数学运算，从而在列中填充NaN

python pandas dataframe

Python 通过检测NaN出现的位置，对其他列进行数学运算，从而在列中填充NaN,python,pandas,dataframe,Python,Pandas,Dataframe,我的数据框包含数百列。幸运的是，它们可以分为两大组，并具有规则的列名。组1包含列Pdc、Pdc.1、Pdc.2。。。。Pdc.250。第2组包括Pac、Pac.1、Pac.2。。。。Pac.250。请注意，每组的第一列不包含后缀编号我想使用以下规则填充所有NaN，无论它们位于何处：第1组（目标列和行）中列的任何行中的NaN将由第2组中列的值填充，其顺序相同（源列和行）乘以目标列的平均值除以源列的平均值为了简单起见，例如，如果NaN位于Pdc.25第10行（第1组），则应填写： Pdc.25

我的数据框包含数百列。幸运的是，它们可以分为两大组，并具有规则的列名。组1包含列Pdc、Pdc.1、Pdc.2。。。。Pdc.250。第2组包括Pac、Pac.1、Pac.2。。。。Pac.250。请注意，每组的第一列不包含后缀编号

我想使用以下规则填充所有NaN，无论它们位于何处：
第1组（目标列和行）中列的任何行中的NaN将由第2组中列的值填充，其顺序相同（源列和行）乘以目标列的平均值除以源列的平均值

为了简单起见，例如，如果NaN位于Pdc.25第10行（第1组），则应填写：
Pdc.25第10行=Pac.25第10行*（平均Pdc.25/平均Pac.25）

如果NaN在第2组中，则公式如下：
Pac.30第15行=Pdc.30第15行*（平均Pac.30/平均Pdc.30）

我写了以下代码：

df['Pdc.25'] = (df['Pdc.25'].fillna(df['Pac.25']*((df['Pdc.25'].mean()/df['Pac.25'].mean())))).to_frame()
df['Pac.30'] = (df['Pac.30'].fillna(df['Pdc.30']*((df['Pac.30'].mean()/df['Pdc.30'].mean())))).to_frame()

上面的代码工作得很好，但对于500列，我必须写出500行方程式

你知道如何使它变得简单吗，例如，通过自动定位NAN并根据规则填充它们

感谢您查看我的问题。

根据您的命名约定，确保列已排序，并使用

.values

对齐操作。可以使用

.where

填充所有内容。如果您希望在缺少列的情况下更安全（即，您有Pac.31，但没有Pdc.31），则映射操作的列名，以确保对齐

import pandas as pd
#df = df.sort_index(axis=1)

pac = df.filter(like='Pac')
pdc = df.filter(like='Pdc')

df_res = pd.concat([pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values),
                    pdc.where(pdc.notnull(), pac.multiply(pdc.mean().div(pac.mean().values).values).values)
                    ], axis=1)

输出

df\u res

：样本数据

说明：第一步是对列进行排序，然后筛选以字符串

'Pac'

或

'Pdc'

开头的列。因为我们对索引进行了排序，这保证了排序是一致的（只要组中的后缀集是相同的）

现在我们可以做数学了。忽略<代码> .fILNA < /Cord>逻辑，只考虑计算我们将要填写的<强>所有< <强> >。代码>数据帧操作在索引上对齐（行和列）。您可以看到
pac
和
pdc
共享行索引，但列索引（列名）不同，这会导致问题：

pac.mean() #Pac 3.888889 #Pac.1 4.500000 #Pac.2 3.714286 #dtype: float64 pdc.mean() #Pdc 5.000000 #Pdc.1 3.714286 #Pdc.2 3.000000 #dtype: float64 pac.mean().div(pdc.mean()) #Pac NaN #Pac.1 NaN #Pac.2 NaN #Pdc NaN #Pdc.1 NaN #Pdc.2 NaN
但是，由于我们之前进行了排序，我们可以看到
值是对齐的，因此我们安全地划分每一列意味着访问值数组。这给出了每个Pac 列的平均值除以相应Pdc 列的平均值 pac.mean().div(pdc.mean().values) #Pac 0.777778 #Pac.1 1.211538 #Pac.2 1.238095 #dtype: float64 乘法具有相同的对齐问题，因此再次访问值，现在这给了我们一个数据帧，与子集的形状相同，如果值为空，我们应该填充什么： pdc.multiply(pac.mean().div(pdc.mean().values).values) # Pdc Pdc.1 Pdc.2 #0 NaN NaN 2.476190 #1 1.555556 2.423077 1.238095 #... 最后，fillna 逻辑通过where 完成，因为我们有两个数据帧： pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values) 可以理解为“在pac中使用不为null的值，否则使用计算中的值”，这正是我们想要的。同样，我们需要访问中的'other'（第二个参数）的.values ，因为列名不一样，但值是对齐的分别为每个组执行此操作，然后将其重新加入老实说，我不明白你的代码是如何工作的，但它与我的数据完美结合。非常感谢。@k.koen，如果您愿意，我很高兴在解决方案中添加更多的解释。否则，也许一次只需遍历一小部分就可以看到发生了什么（测试pac.mean（）.div（pdc.mean（）.values）之类的内容）并查看它返回的内容。最棘手的部分可能是，尽管它是一个非常方便的函数。出于学习目的，如果您愿意解释它是如何工作的，我将非常高兴。谢谢您进一步的建议。 pac.mean().div(pdc.mean().values) #Pac 0.777778 #Pac.1 1.211538 #Pac.2 1.238095 #dtype: float64 pdc.multiply(pac.mean().div(pdc.mean().values).values) # Pdc Pdc.1 Pdc.2 #0 NaN NaN 2.476190 #1 1.555556 2.423077 1.238095 #... pac.where(pac.notnull(), pdc.multiply(pac.mean().div(pdc.mean().values).values).values)