Python 3.x 如何将每一行-列值和后续行-列值相加，并使用新行和旧行创建新数据框_Python 3.x_Pandas

Python 3.x 如何将每一行-列值和后续行-列值相加，并使用新行和旧行创建新数据框

python-3.x pandas

Python 3.x 如何将每一行-列值和后续行-列值相加，并使用新行和旧行创建新数据框,python-3.x,pandas,Python 3.x,Pandas,我有不同产品id、相应产品描述和数量的大数据框架。有子产品（产品描述2、产品描述3…等）的产品id没有产品id或没有映射到主产品id（1111333），其值在产品id列中为空，如示例DF所示 Sample DF prod_id prod_description col1 col2 col3 col4 col5 1111 prod_desc1 10 20 30 45 25 prod_d

我有不同产品id、相应产品描述和数量的大数据框架。有子产品（产品描述2、产品描述3…等）的产品id没有产品id或没有映射到主产品id（1111333），其值在产品id列中为空，如示例DF所示

Sample DF
prod_id prod_description    col1    col2    col3    col4    col5
1111    prod_desc1          10      20      30      45      25  
        prod_desc2          15      17      16      28      nan
        prod_desc3          15      17      5       nan     nan
2222    prod_desc1          5       10      15      7       10
2223    prod_desc1          15      10      25      10      10
333     prod_desc1          10      15      20      23      25  
        prod_desc2          25      5       25      10      nan

我想将prod_desc2和prod_desc3的数量汇总到prod_desc1级别，并与所需输出中显示的其他prod_id（2222223）一起创建一个新的DF。这样，每个产品id将有其子产品的一行累积和

Desired Output 
prod_id prod_description    col1    col2    col3    col4    col5
1111    prod_desc1          40      54      51      73      25  
2222    prod_desc1          5       10      15      7       10
2223    prod_desc1          15      10      25      10      10
333     prod_desc1          35      20      45      33      25

下面是我尝试过的“部分”代码，在将prod id行和no_prod_id列的列值求和并将它们与其他prod_id一起保存在新的数据框中时遇到了问题。请执行所需的全部操作

Empty rows were filled with no_prod_id 

prod_id     prod_description    col1    col2    col3    col4    col5
1111        prod_desc1          10      20      30      45      25  
no_prod_id  prod_desc2          15      17      16      28      nan
no_prod_id  prod_desc3          15      17      5       nan     nan
2222        prod_desc1          5       10      15      7       10
2223        prod_desc1          15      10      25      10      10
333         prod_desc1          10      15      20      23      25  
no_prod_id  prod_desc2          25      5       25      10      nan

null_value_count=[]
rolled_up_values=[]
for i in df.index:
    if df.iloc[i,0]=="no_prod_id": #pick no_prod_id row
        x=df.iloc[i,:]  #save null value row
        if x.isnull().sum().sum()==df.shape[1]: # check if no_prod_id is having all nulls 
            null_value_cunt.append(i)         #save index for later deleting it from DF
        else:
            if df.iloc[i-1,0]!= "no_prod_id": #check previus row has main prod id 
                y=df.iloc[i-1,:] # save main prod id row
                for val in  range(1,len(y)):    #get each value of main prod id 
                    rolled_up_values.append(x[val]+y[val]) #sum with no_prod_id value save the out in 
                                                           #list for updating in a new DF

第一个

ffill

df['prod_id'] = df['prod_id'].ffill()
print(df)
    prod_id prod_description  col1  col2  col3  col4  col5
0   1111.0       prod_desc1    10    20    30  45.0  25.0
1   1111.0       prod_desc2    15    17    16  28.0   NaN
2   1111.0       prod_desc3    15    17     5   NaN   NaN
3   2222.0       prod_desc1     5    10    15   7.0  10.0
4   2223.0       prod_desc1    15    10    25  10.0  10.0
5    333.0       prod_desc1    10    15    20  23.0  25.0
6    333.0       prod_desc2    25     5    25  10.0   NaN

然后我们删除您的产品描述并按剩余列分组

df_new = df.drop('prod_description',axis=1).groupby('prod_id').sum().reset_index()

df_new.insert(1,'prod_description','prod_desc1') # reinsert columns.

结果，请注意，我刚刚添加了一个自定义排序以匹配您的输出

idx = df_new['prod_id'].astype(str).str[1].astype(int).sort_values().index
print(df_new.loc[idx])
   prod_id prod_description  col1  col2  col3  col4  col5
1   1111.0       prod_desc1    40    54    51  73.0  25.0
2   2222.0       prod_desc1     5    10    15   7.0  10.0
3   2223.0       prod_desc1    15    10    25  10.0  10.0
0    333.0       prod_desc1    35    20    45  33.0  25.0

或者正如anky_91善意地指出的那样，我们可以使用

.assign

和

sort=False

df['prod_id'] = df['prod_id'].ffill()
df.groupby("prod_id", sort=False, as_index=False).sum().assign(
prod_description="prod_desc1"
).reindex(df.columns, axis=1)

结果

   prod_id prod_description  col1  col2  col3  col4  col5
0   1111.0       prod_desc1    40    54    51  73.0  25.0
1   2222.0       prod_desc1     5    10    15   7.0  10.0
2   2223.0       prod_desc1    15    10    25  10.0  10.0
3    333.0       prod_desc1    35    20    45  33.0  25.0

很好的解决方案，但是您不需要再次对索引进行排序，可以通过在groupby:）下传递

sort=False

来维护顺序，例如：

df.groupby（'prod_id'，sort=False，as_index=False）。sum（）.assign（prod_description='prod_desc1'）。reindex（df.columns，axis=1）

@datanovel，简明的soution。您能解释一下

str[1].astype（int）

自定义排序？@anky_91哦，太棒了，完全忘了！我应该更多地参考文档，你想添加它作为答案还是我可以编辑我的？（：@Optimizer它基本上只是取数字的第一位，即

是

它只是保留原始排序，可能无法处理实际数据。请尝试Anky_91解决方案。@datanovel可以将其添加到您的答案中：）