Python 熊猫多指标高级剖面
我有以下数据帧:Python 熊猫多指标高级剖面,python,pandas,Python,Pandas,我有以下数据帧: lb = [('A','a',1), ('A','a',2), ('A','a',3), ('A','b',1), ('A','b',2), ('A','b',3), ('B','a',1), ('B','a',2), ('B','a',3), ('B', 'b',1), ('B','b',2) ,('B','b',3)] col = pd.MultiIndex.from_tuples(lb, names=['first','second','third']) df = pd.
lb = [('A','a',1), ('A','a',2), ('A','a',3), ('A','b',1), ('A','b',2), ('A','b',3), ('B','a',1), ('B','a',2), ('B','a',3), ('B', 'b',1), ('B','b',2) ,('B','b',3)]
col = pd.MultiIndex.from_tuples(lb, names=['first','second','third'])
df = pd.DataFrame(randn(5,12), columns=col)
first A B \
second a b a
third 1 2 3 1 2 3 1
0 1.597958 2.054695 0.449745 -0.990393 0.780978 -0.590558 -0.691706
1 -0.093841 -1.203769 1.779555 -0.299931 -0.411360 0.122852 -0.250156
2 0.025183 0.514480 -0.420666 1.574669 0.962010 1.278237 -0.976286
3 -1.028288 -0.506581 0.880370 1.513487 -0.066479 -0.100231 0.785042
4 -1.635642 0.464074 -0.335941 -0.034194 0.412519 -0.672058 0.113886
first
second b
third 2 3 1 2 3
0 1.954769 0.705860 -1.712058 1.015807 1.245232
1 -2.037299 -0.120649 -0.114652 -0.686707 -0.993540
2 0.918084 -0.892378 -0.741131 -2.547121 0.797637
3 0.000077 2.123063 0.903571 1.972190 -1.179325
4 -1.145241 -1.773182 0.407046 -0.301640 -0.173261
我想得到所有包含2和3的列,即
df.xs([2,3], level='third', axis=1, drop_level=False)
但这不起作用。如何继续?似乎不能将xs函数与多个键一起使用。可能存在一种更为奇特的切片,但我会尽可能简单,并生成一个符合我需要的部分多索引对象:
cols = df.columns
thirdlvl = cols.get_level_values('third')
partialcols = [col for col, third in zip(cols, thirdlvl) if third in [2,3]]
通过这些列,您可以获得所需的部分数据帧:
print df[partialcolumns]
first A B
second a b a b
third 2 3 2 3 2 3 2 3
0 1.103063 1.036151 -0.018996 1.436792 -0.956119 1.587688 2.262837 -1.059619
1 0.950664 1.847895 -1.172043 0.752676 -0.091956 -0.431509 -0.653317 -0.545843
2 0.165655 -0.180710 -1.844222 -0.836338 1.687806 -0.469707 -0.374222 0.132809
3 -0.275194 0.141292 1.021046 -0.010747 1.725614 0.530589 0.106327 0.138661
4 0.371840 0.455063 -2.643567 0.406322 -0.717277 0.667969 0.660701 -1.324643
编辑:下面的简单代码当然也会找到正确的列
partialcols = [col for col in cols if col[2] in [2,3]]
似乎不能将xs函数与多个键一起使用。可能存在一种更为奇特的切片,但我会尽可能简单,并生成一个符合我需要的部分多索引对象:
cols = df.columns
thirdlvl = cols.get_level_values('third')
partialcols = [col for col, third in zip(cols, thirdlvl) if third in [2,3]]
通过这些列,您可以获得所需的部分数据帧:
print df[partialcolumns]
first A B
second a b a b
third 2 3 2 3 2 3 2 3
0 1.103063 1.036151 -0.018996 1.436792 -0.956119 1.587688 2.262837 -1.059619
1 0.950664 1.847895 -1.172043 0.752676 -0.091956 -0.431509 -0.653317 -0.545843
2 0.165655 -0.180710 -1.844222 -0.836338 1.687806 -0.469707 -0.374222 0.132809
3 -0.275194 0.141292 1.021046 -0.010747 1.725614 0.530589 0.106327 0.138661
4 0.371840 0.455063 -2.643567 0.406322 -0.717277 0.667969 0.660701 -1.324643
编辑:下面的简单代码当然也会找到正确的列
partialcols = [col for col in cols if col[2] in [2,3]]
这是0.14.0中的一个新特性,请参见whatsnew。这有效地取代了对.xs的需求 减去这一点是非常重要的
[107]: df = pd.DataFrame(np.arange(5*12).reshape(-1,12), columns=col)
In [108]: df
Out[108]:
first A B
second a b a b
third 1 2 3 1 2 3 1 2 3 1 2 3
0 0 1 2 3 4 5 6 7 8 9 10 11
1 12 13 14 15 16 17 18 19 20 21 22 23
2 24 25 26 27 28 29 30 31 32 33 34 35
3 36 37 38 39 40 41 42 43 44 45 46 47
4 48 49 50 51 52 53 54 55 56 57 58 59
Pandas想让rhs侧对齐,毕竟你在使用不同的索引,
所以你需要手动播放。这里有一个问题:
这是0.14.0中的一个新特性,请参见whatsnew。这有效地取代了对.xs的需求 减去这一点是非常重要的
[107]: df = pd.DataFrame(np.arange(5*12).reshape(-1,12), columns=col)
In [108]: df
Out[108]:
first A B
second a b a b
third 1 2 3 1 2 3 1 2 3 1 2 3
0 0 1 2 3 4 5 6 7 8 9 10 11
1 12 13 14 15 16 17 18 19 20 21 22 23
2 24 25 26 27 28 29 30 31 32 33 34 35
3 36 37 38 39 40 41 42 43 44 45 46 47
4 48 49 50 51 52 53 54 55 56 57 58 59
Pandas想让rhs侧对齐,毕竟你在使用不同的索引,
所以你需要手动播放。这里有一个问题:
嘿,这是个好消息@Jeff!它使切片更容易。现在与此相关,这是我的最终目标:如何将每个多索引的第1列减为第2列,第3列?这更接近我所看到的,但我希望保持第1列在数据帧中的状态。在我的应用程序中,第1列是减去其他列的参考数据。多重索引是测量的不同“运行”。我更新了,你可以使用相同的掩码简单地设置。讽刺的是,这就是rhs不简单的“原因”。太好了,这就是我想要的!有点奇怪的是,在多索引数据帧的列中没有一种完整的方法来进行计算,但这个技巧很简单,效果很好。谢谢你@Jeff但是尝试做什么并不明显也不简单-你尝试用一种非常奇怪的方式做广播嘿,这是个好消息@Jeff!它使切片更容易。现在与此相关,这是我的最终目标:如何将每个多索引的第1列减为第2列,第3列?这更接近我所看到的,但我希望保持第1列在数据帧中的状态。在我的应用程序中,第1列是减去其他列的参考数据。多重索引是测量的不同“运行”。我更新了,你可以使用相同的掩码简单地设置。讽刺的是,这就是rhs不简单的“原因”。太好了,这就是我想要的!有点奇怪的是,在多索引数据帧的列中没有一种完整的方法来进行计算,但这个技巧很简单,效果很好。谢谢@Jeff但尝试做什么既不明显也不简单-或者尝试以一种非常奇怪的方式进行广播谢谢@Gregor,这是可行的,但是Jeff指出了熊猫0.14的一个新功能,它更有效。过来看!感谢@Jeff指出IndexSlice功能,我到目前为止也没有使用该功能。感谢@Gregor,这是可行的,但Jeff指出了Pandas 0.14的一个新功能,该功能更有效。过来看!感谢@Jeff指向indexlice特性,我到目前为止也没有使用它。