Python 合并dataframe中的重复列_Python_Pandas_Dataframe

Python 合并dataframe中的重复列

python pandas dataframe

Python 合并dataframe中的重复列,python,pandas,dataframe,Python,Pandas,Dataframe,我试图从一组序列中获取一个新的数据帧（我将其设置为原始数据帧作为空白DF）。这是我得到这个系列的代码 all_keys = list(dict_months.keys()) for i in all_keys: for j in range(len(dict_months[i])): temp_num = df_mth_return.loc['1992-'+str(i),dict_months[i][j]] blank_df = blank_df.appe

我试图从一组序列中获取一个新的数据帧（我将其设置为原始数据帧作为空白DF）。这是我得到这个系列的代码

all_keys = list(dict_months.keys())
for i in all_keys:
    for j in range(len(dict_months[i])):
        temp_num = df_mth_return.loc['1992-'+str(i),dict_months[i][j]]
        blank_df = blank_df.append(temp_num) # append Series to blank_df

下面是结果系列的示例输出，每个temp_num都是一个系列

Date 
1992-02-03   -2.174845
Name: IBM US Equity, dtype: float64 
Date 
1992-02-03    0.878127
Name: MMM US Equity, dtype: float64
Date
1992-03-02   -3.884848
Name: IBM US Equity, dtype: float64

这就是我得到的结果

en          IBM US Equity   MMM US Equity   IBM US Equity   MMM US Equity   IBM US Equity   IBM US Equity   
2/3/1992    -2.17485        0.878127          NaN          all the way across  >> NaN
3/2/1992        NaN             NaN         -3.88485          -2.47076       NaN    acorss >> 
1/2/1992        NaN             NaN            NaN               NaN         1.123077   NaN across >>>> 
7/1/1992        NaN             NaN            NaN               NaN               NaN  -3.19279    3.091772    NaN across >>>> 
4/1/1992  ETC.... DOWN

但是我希望最后的数据帧看起来像下面这样，这样相同的列只显示一次。有人能帮忙吗。这是空白_DF的一个小示例，它适用于多个列和更多行

           IBM US Equity    MMM US Equity
2/3/1992    -2.17485         0.878127
3/2/1992    -3.88485         -2.47076
1/2/1992    1.123077           NaN
7/1/1992    -3.19279         3.091772
4/1/1992      NaN             5.63469
5/1/1992    1.312976         2.867628

我相信您需要使用

groupby

by columns，并使用

bfill

应用lambda函数来填充

NaN

s，使用

iloc

来选择第一列：

df = df.groupby(axis=1, level=0).apply(lambda x: x.bfill(axis=1).iloc[:, 0])
print (df)
          IBM US Equity  MMM US Equity
en                                    
2/3/1992      -2.174850       0.878127
3/2/1992      -3.884850      -2.470760
1/2/1992       1.123077            NaN
7/1/1992      -3.192790       3.091772

另一个具有

numpy

和完美Divakar函数的解决方案-仅通过

[：，0]

选择2d数组中的第一个值：

f = lambda x: pd.Series(justify(x.values, invalid_val=np.nan, axis=1, side='left')[:, 0])
df = df.groupby(axis=1, level=0).apply(f)
print (df)

很好，我想这就是OP想要的。@cᴏʟᴅsᴘᴇᴇᴅ - 谢谢；）