Python:从一个数据帧获取值并添加到另一个数据帧(行和列条件)
假设我们有以下两个数据帧:Python:从一个数据帧获取值并添加到另一个数据帧(行和列条件),python,pandas,dataframe,Python,Pandas,Dataframe,假设我们有以下两个数据帧:df1和df2 x1 = [{'partner': "Afghanistan", 'trade_value':100, 'commodity': 1, 'year': 2013}, {'partner': "Zambia",'trade_value':110, 'commodity': 2, 'year': 2016}, {'partner': "Germany",'trade_value':120, 'commodity': 2, 'yea
df1
和df2
x1 = [{'partner': "Afghanistan", 'trade_value':100, 'commodity': 1, 'year': 2013},
{'partner': "Zambia",'trade_value':110, 'commodity': 2, 'year': 2016},
{'partner': "Germany",'trade_value':120, 'commodity': 2, 'year': 2014},
{'partner': "Afghanistan",'trade_value':150, 'commodity': 2, 'year': 2014},
{'partner': "USA",'trade_value':1120, 'commodity': 5, 'year': 2013}];
df1 = pd.DataFrame(x1)
#Add GDP column
df1['GDP'] = 0;
x2 = [{'country': "Afghanistan", 'commodity': 5, 'GDP-2013': 5000, 'GDP-2014': 5500},
{'country': "USA", 'commodity': 5, 'GDP-2013': 15012, 'GDP-2014': 16500},
{'country': "Germany", 'commodity': 7, 'GDP-2013': 7500, 'GDP-2014': 8300}];
df2 = pd.DataFrame(x2)
我想做的是根据df1
中指示的年份,从df2
中添加df1
中国家的GDP
例如:对于df1
中的第一行,我想得到阿富汗
2013年的GDP。
我必须通过df2
查找匹配的国家
和GDP年
的行,然后在GDP年
下获取值
df1
的最终输出应该如下所示:
| partner | trade_value | commodity | year | GDP |
|------------|-------------|-----------|--------|-------|
| Afghanistan| 100 | 1 | 2013 | 5000 |
| Zambia | 110 | 2 | 2016 | NaN |
| Germany | 120 | 2 | 2014 | 8300 |
| Afghanistan| 150 | 2 | 2014 | 5500 |
| USA | 1120 | 5 | 2013 | 16500|
我花了好几个小时尝试map
和loc
方法,但都没有效果。我目前的工作是:
for index, row in df2.iterrows():
for column in df2:
df1.loc[df1['partner'] == row['country'] and 'GDP-'+str(df1['year']) == column, ['GDP']] = row[column];
我得到以下错误:
ValueError: The truth value of a Series is ambiguous. Use a.empty, a.bool(), a.item(), a.any() or a.all().
IIUC用途:
x1 = [{'partner': "Afghanistan", 'trade_value':100, 'commodity': 1, 'year': 2013},
{'partner': "Zambia",'trade_value':110, 'commodity': 2, 'year': 2016},
{'partner': "Germany",'trade_value':120, 'commodity': 2, 'year': 2014},
{'partner': "Afghanistan",'trade_value':150, 'commodity': 2, 'year': 2014},
{'partner': "USA",'trade_value':1120, 'commodity': 5, 'year': 2013}];
df1 = pd.DataFrame(x1)
x2 = [{'country': "Afghanistan", 'commodity': 5, 'GDP-2013': 5000, 'GDP-2014': 5500},
{'country': "USA", 'commodity': 5, 'GDP-2013': 15012, 'GDP-2014': 16500},
{'country': "Germany", 'commodity': 7, 'GDP-2013': 7500, 'GDP-2014': 8300}];
df2 = pd.DataFrame(x2)
一枪:
In [24]: df1['GDP'] = df1.apply(lambda s: np.where(df2.country.str.contains(s.partner).any(), \
...: df2.loc[df2.country == s.partner].get('GDP-' + str(s.year), pd.Series([np.NaN])).values[0], np.NaN), axis=1)
In [25]: df1
Out[25]:
commodity partner trade_value year GDP
0 1 Afghanistan 100 2013 5000.0
1 2 Zambia 110 2016 nan
2 2 Germany 120 2014 8300.0
3 2 Afghanistan 150 2014 5500.0
4 5 USA 1120 2013 15012.0
In [24]: df1['GDP'] = df1.apply(lambda s: np.where(df2.country.str.contains(s.partner).any(), \
...: df2.loc[df2.country == s.partner].get('GDP-' + str(s.year), pd.Series([np.NaN])).values[0], np.NaN), axis=1)
In [25]: df1
Out[25]:
commodity partner trade_value year GDP
0 1 Afghanistan 100 2013 5000.0
1 2 Zambia 110 2016 nan
2 2 Germany 120 2014 8300.0
3 2 Afghanistan 150 2014 5500.0
4 5 USA 1120 2013 15012.0