Python 使用pandas将多个数据帧合并为一个数据帧_Python_Pandas_Merge_Dataframe

Python 使用pandas将多个数据帧合并为一个数据帧

python pandas merge dataframe

Python 使用pandas将多个数据帧合并为一个数据帧,python,pandas,merge,dataframe,Python,Pandas,Merge,Dataframe,我有一个数据帧df： fruit date volume 0 apple 20141001 2000 1 apple 20141101 1800 2 apple 20141201 2200 3 orange 20141001 1900 4 orange 20141101 2000 5 orange 20141201 3000 …. 我有以下两个数据帧苹果公司： date pr

我有一个数据帧df：

   fruit      date    volume
0  apple    20141001    2000
1  apple    20141101    1800
2  apple    20141201    2200
3  orange   20141001    1900
4  orange   20141101    2000
5  orange   20141201    3000
….

我有以下两个数据帧

苹果公司：

   date       price
0  20141001   2
1  20141101   2.5
2  20141201   3

橙色：

   date       price
0  20141001   1.5
1  20141101   2
2  20141201   2

如何将所有这些合并到以下数据框中：

   fruit      date    price    volume
0  apple    20141001   2       2000
1  apple    20141101   2.5     1800
2  apple    20141201   3       2200
3  orange   20141001   1.5     1900
4  orange   20141101   2       2000
5  orange   20141201   2       3000
….

这只是一个例子，在我的实际工作中，我有数百个带有价格数据的“水果”需要合并到第一个数据帧中

我应该使用合并还是加入？他们之间有什么区别？谢谢。

对于您的示例数据，您可以通过执行两次

concat

来实现所需的功能，前提是最后两个dfs与主df对齐。内部

concat

将两个补充dfs按行连接成一个df，外部

concat

按列连接：

In [56]:
# this concats the 2 supplementary dfs row-wise into a single df
pd.concat([df1,df2], ignore_index=True)
Out[56]:
       date  price
0  20141001    2.0
1  20141101    2.5
2  20141201    3.0
3  20141001    1.5
4  20141101    2.0
5  20141201    2.0
In [54]:
# now concat column-wise with the main df
pd.concat([df,pd.concat([df1,df2], ignore_index=True)], axis=1)
Out[54]:
    fruit      date  volume      date  price
0   apple  20141001    2000  20141001    2.0
1   apple  20141101    1800  20141101    2.5
2   apple  20141201    2200  20141201    3.0
3  orange  20141001    1900  20141001    1.5
4  orange  20141101    2000  20141101    2.0
5  orange  20141201    3000  20141201    2.0

然而，对于您的真实数据，您需要做的是为每个水果添加价格列：

In [55]:

df[df['fruit'] == 'apple'].merge(df1, on='date')
Out[55]:
   fruit      date  volume  price
0  apple  20141001    2000    2.0
1  apple  20141101    1800    2.5
2  apple  20141201    2200    3.0

对每个水果重复一次

解决实际数据问题的一种方法是在每个补充df中添加一个“fruit”列，将所有这些列连接起来，然后使用“fruit”和“date”列作为键进行合并：

In [57]:

df1['fruit'] = 'apple'
df2['fruit'] = 'orange'
fruit_df = pd.concat([df1,df2], ignore_index=True)
fruit_df
Out[57]:
       date  price   fruit
0  20141001    2.0   apple
1  20141101    2.5   apple
2  20141201    3.0   apple
3  20141001    1.5  orange
4  20141101    2.0  orange
5  20141201    2.0  orange
In [58]:

df.merge(fruit_df, on=['fruit', 'date'])
Out[58]:
    fruit      date  volume  price
0   apple  20141001    2000    2.0
1   apple  20141101    1800    2.5
2   apple  20141201    2200    3.0
3  orange  20141001    1900    1.5
4  orange  20141101    2000    2.0
5  orange  20141201    3000    2.0

join

使用下面的

merge

作为经验法则，如果你打算在索引上加入，那么使用

join

如果不是，那么使用

merge

是否可以使用groupby？@user6396你可以按水果和日期分组，然后设置价格，但是，您的问题是，如果有很多dfs中没有标识符（即“水果”列），那么如果不设置与日期匹配的所有行，且价格相同，则无法将它们合并回去，您可以做的是为每个补充df添加“水果”列，连接所有这些补充dfs，然后您可以使用“结果”列和“日期”列将它们合并回来，这就是我的方法