Python 如何压缩添加具有不同列的数据帧_Python_Pandas_Dataframe

Python 如何压缩添加具有不同列的数据帧

python pandas dataframe

Python 如何压缩添加具有不同列的数据帧,python,pandas,dataframe,Python,Pandas,Dataframe,我想以类似zip的方式添加两个dfs： df1： df2：预期结果： df1+df2= X a b c 1 1 1 3 1 1 2 4 1 2 1 4 1 2 2 5 我唯一的想法是一行一行地走，但那太可怕了。现在的问题可以通过广播解决： # new values new_vals = df1.X.values[:,None] + df2.X.values[None,:] # new dataframe: new

我想以类似zip的方式添加两个dfs：

df1：

df2：

预期结果：

df1+df2=
           X
a   b   c
1   1   1   3
1   1   2   4
1   2   1   4
1   2   2   5

我唯一的想法是一行一行地走，但那太可怕了。

现在的问题可以通过广播解决：

# new values
new_vals = df1.X.values[:,None] + df2.X.values[None,:]

# new dataframe:
new_df = pd.DataFrame(new_vals, index=df1.index, columns=df2.index)

# stack for the multi-index:
new_df.stack()

输出：

a  b  c
1  1  1    3
      2    4
   2  1    4
      2    5
dtype: int64

如果您有多个列，它仍然有效，但不需要对新的_df列进行任何调整：

df1 = (pd.DataFrame({'a':[1,1],
                    'b':[1,2],
                    'X':[0,3],
                    'Y':[1,2]})
         .set_index(['a','b'])
      )

df2 = (pd.DataFrame({'c':[1,2,3],
                    'X':[1,2,3],
                    'Y':[0,1,5]})
         .set_index('c')
      )

new_vals = df1.values[:,None] + df2.values[None,:]

new_df = pd.DataFrame(data=new_vals.reshape(len(df1), df2.shape[1]*df2.shape[0]),
                      index=df1.index, 
                      columns=pd.MultiIndex.from_product((df2.index, df2.columns) )
                     )

输出：

       X  Y
a b        
1 1 1  1  1
    2  2  2
    3  3  6
  2 1  4  2
    2  5  3
    3  6  7

很容易使用

concat

pd.concat([df1+df2.loc[x] for x in df2.index],1,keys=df2.index).stack(0)
Out[267]: 
       X
a b c   
1 1 1  3
    2  4
  2 1  4
    2  5

另一种解决方案是，从列表中创建一个新列表，然后使用和：

[外]

两个数据帧复制一次背后的逻辑是什么？每个数据帧只有一列还是多列？@QuangHoang

df1

有多个索引，

df2

只有一个索引。但“结果”列（

）的数量为三列。希望我清楚enough@Erfan你的问题我不清楚

       X  Y
a b        
1 1 1  1  1
    2  2  2
    3  3  6
  2 1  4  2
    2  5  3
    3  6  7

pd.concat([df1+df2.loc[x] for x in df2.index],1,keys=df2.index).stack(0)
Out[267]: 
       X
a b c   
1 1 1  3
    2  4
  2 1  4
    2  5

new_idx = pd.MultiIndex.from_tuples([x + (y,) for x in df1.index.to_flat_index()
                                     for y in df2.index], names=['a', 'b', 'c'])

df1.reindex(new_idx).add(df2)