Python 从数据帧的列中减去子列
我有一个数据框,如下所示:Python 从数据帧的列中减去子列,python,pandas,dataframe,Python,Pandas,Dataframe,我有一个数据框,如下所示: name tag price 0 x1 tweak1 1.1 1 x1 tweak2 1.2 2 x1 base 1.0 3 x2 tweak1 2.1 4 x2 tweak2 2.2 5 x2 base 2.0 name tag price sensitivity 0 x1 tweak1 1.1
name tag price
0 x1 tweak1 1.1
1 x1 tweak2 1.2
2 x1 base 1.0
3 x2 tweak1 2.1
4 x2 tweak2 2.2
5 x2 base 2.0
name tag price sensitivity
0 x1 tweak1 1.1 0.1
1 x1 tweak2 1.2 0.2
2 x1 base 1.0 0.0
3 x2 tweak1 1.3 -0.7
4 x2 tweak2 2.4 0.4
5 x2 base 2.0 0.0
我想从价格列中减去基价,然后创建一个新列,如下所示:
name tag price
0 x1 tweak1 1.1
1 x1 tweak2 1.2
2 x1 base 1.0
3 x2 tweak1 2.1
4 x2 tweak2 2.2
5 x2 base 2.0
name tag price sensitivity
0 x1 tweak1 1.1 0.1
1 x1 tweak2 1.2 0.2
2 x1 base 1.0 0.0
3 x2 tweak1 1.3 -0.7
4 x2 tweak2 2.4 0.4
5 x2 base 2.0 0.0
并最终删除带有标记base的行以获得
name tag price sensitivity
0 x1 tweak1 1.1 0.1
1 x1 tweak2 1.2 0.2
3 x2 tweak1 1.3 -0.7
4 x2 tweak2 2.4 0.4
在熊猫中执行此操作的最佳方法是什么?您可以尝试以下方法:
(df.groupby('name', group_keys=False)
.apply(lambda g: g.assign(sensitivity = g.price - g.price[g.tag == "base"].values))
[lambda x: x.tag != "base"])
或者另一个选项,将表格透视到宽格式,进行减法运算,然后将其转换回长格式:
wide_df = df.pivot_table(['price'], 'name', 'tag')
(wide_df.sub(wide_df[('price', 'base')], axis=0)
.drop(('price', 'base'), 1).stack(level=1)
.reset_index())
以下是我将如何解决这个问题: 1) 为基础创建柱 2) 减去那些列 3) 放下底座(不要使用双关语) 下面是我用来编写代码的示例。如果您愿意,请随时跟随:
import re
import pandas as pd
import numpy as np
df = pd.DataFrame({'A' : [1,1,3,4,5,5,3,1,5,np.NaN],
'B' : [1,np.NaN,3,5,0,0,np.NaN,9,0,0],
'C' : ['AA1233445','AA1233445', 'rmacy','Idaho Rx','Ab123455','TV192837','RX','Ohio Drugs','RX12345','USA Pharma'],
'D' : [123456,123456,1234567,12345678,12345,12345,12345678,123456789,1234567,np.NaN],
'E' : ['Assign','Unassign','Assign','Ugly','Appreciate','Undo','Assign','Unicycle','Assign','Unicorn',]})
print(df)
df['Base'] = np.where(df.E.isin(['Assign']), df['A'] ,0)
df['difference'] = df['B'] - df['Base']
df3 = df[df['E'] !='Assign']
输出:
A B C D E Base difference
1 1.0 NaN AA1233445 123456.0 Unassign 0.0 NaN
3 4.0 5.0 Idaho Rx 12345678.0 Ugly 0.0 5.0
4 5.0 0.0 Ab123455 12345.0 Appreciate 0.0 0.0
5 5.0 0.0 TV192837 12345.0 Undo 0.0 0.0
7 1.0 9.0 Ohio Drugs 123456789.0 Unicycle 0.0 9.0
9 NaN 0.0 USA Pharma NaN Unicorn 0.0 0.0
首先,我将从
'name'
和'tag'
列创建索引。然后我将减去横截面。熊猫们将为我们结盟。
最后,使用
assign
+drop
+reset_index
进行簿记和格式化
p = df.set_index(['name', 'tag'])[['price']]
p.assign(sensitivity=p - p.xs('base', level=1)).drop('base', level=1).reset_index()
name tag price sensitivity
0 x1 tweak1 1.1 0.1
1 x1 tweak2 1.2 0.2
2 x2 tweak1 1.3 -0.7
3 x2 tweak2 2.4 0.4
你能包含你使用过的代码吗?上表是以一个更大的代码序列生成的,因此很难包含代码。实际的表也要大得多,这只是我需要做的操作的一个表示。你总是给出很好的答案!我只是很难理解代码和你背后的想法。@MattR感谢你的评论!总是很难遵循别人的准则。:-)