Python 熊猫多指标高级剖面_Python_Pandas

Python 熊猫多指标高级剖面

python pandas

Python 熊猫多指标高级剖面,python,pandas,Python,Pandas,我有以下数据帧： lb = [('A','a',1), ('A','a',2), ('A','a',3), ('A','b',1), ('A','b',2), ('A','b',3), ('B','a',1), ('B','a',2), ('B','a',3), ('B', 'b',1), ('B','b',2) ,('B','b',3)] col = pd.MultiIndex.from_tuples(lb, names=['first','second','third']) df = pd.

我有以下数据帧：

lb = [('A','a',1), ('A','a',2), ('A','a',3), ('A','b',1), ('A','b',2), ('A','b',3), ('B','a',1), ('B','a',2), ('B','a',3), ('B', 'b',1), ('B','b',2) ,('B','b',3)]
col = pd.MultiIndex.from_tuples(lb, names=['first','second','third'])
df = pd.DataFrame(randn(5,12), columns=col)

first          A                                                           B  \
second         a                             b                             a   
third          1         2         3         1         2         3         1   
0       1.597958  2.054695  0.449745 -0.990393  0.780978 -0.590558 -0.691706   
1      -0.093841 -1.203769  1.779555 -0.299931 -0.411360  0.122852 -0.250156   
2       0.025183  0.514480 -0.420666  1.574669  0.962010  1.278237 -0.976286   
3      -1.028288 -0.506581  0.880370  1.513487 -0.066479 -0.100231  0.785042   
4      -1.635642  0.464074 -0.335941 -0.034194  0.412519 -0.672058  0.113886   

first                                                     
second                             b                      
third          2         3         1         2         3  
0       1.954769  0.705860 -1.712058  1.015807  1.245232  
1      -2.037299 -0.120649 -0.114652 -0.686707 -0.993540  
2       0.918084 -0.892378 -0.741131 -2.547121  0.797637  
3       0.000077  2.123063  0.903571  1.972190 -1.179325  
4      -1.145241 -1.773182  0.407046 -0.301640 -0.173261

我想得到所有包含2和3的列，即

df.xs([2,3], level='third', axis=1, drop_level=False)

但这不起作用。如何继续？

似乎不能将xs函数与多个键一起使用。可能存在一种更为奇特的切片，但我会尽可能简单，并生成一个符合我需要的部分多索引对象：

cols = df.columns
thirdlvl = cols.get_level_values('third')

partialcols = [col for col, third in zip(cols, thirdlvl) if third in [2,3]]

通过这些列，您可以获得所需的部分数据帧：

print df[partialcolumns]

first          A                                       B                              
second         a                   b                   a                   b          
third          2         3         2         3         2         3         2         3
0       1.103063  1.036151 -0.018996  1.436792 -0.956119  1.587688  2.262837 -1.059619
1       0.950664  1.847895 -1.172043  0.752676 -0.091956 -0.431509 -0.653317 -0.545843
2       0.165655 -0.180710 -1.844222 -0.836338  1.687806 -0.469707 -0.374222  0.132809
3      -0.275194  0.141292  1.021046 -0.010747  1.725614  0.530589  0.106327  0.138661
4       0.371840  0.455063 -2.643567  0.406322 -0.717277  0.667969  0.660701 -1.324643

编辑：下面的简单代码当然也会找到正确的列

 partialcols = [col for col in cols if col[2] in [2,3]]

似乎不能将xs函数与多个键一起使用。可能存在一种更为奇特的切片，但我会尽可能简单，并生成一个符合我需要的部分多索引对象：

cols = df.columns
thirdlvl = cols.get_level_values('third')

partialcols = [col for col, third in zip(cols, thirdlvl) if third in [2,3]]

通过这些列，您可以获得所需的部分数据帧：

print df[partialcolumns]

first          A                                       B                              
second         a                   b                   a                   b          
third          2         3         2         3         2         3         2         3
0       1.103063  1.036151 -0.018996  1.436792 -0.956119  1.587688  2.262837 -1.059619
1       0.950664  1.847895 -1.172043  0.752676 -0.091956 -0.431509 -0.653317 -0.545843
2       0.165655 -0.180710 -1.844222 -0.836338  1.687806 -0.469707 -0.374222  0.132809
3      -0.275194  0.141292  1.021046 -0.010747  1.725614  0.530589  0.106327  0.138661
4       0.371840  0.455063 -2.643567  0.406322 -0.717277  0.667969  0.660701 -1.324643

编辑：下面的简单代码当然也会找到正确的列

 partialcols = [col for col in cols if col[2] in [2,3]]

这是0.14.0中的一个新特性，请参见whatsnew。这有效地取代了对.xs的需求

减去这一点是非常重要的

[107]: df = pd.DataFrame(np.arange(5*12).reshape(-1,12), columns=col)

In [108]: df
Out[108]: 
first    A                       B                    
second   a           b           a           b        
third    1   2   3   1   2   3   1   2   3   1   2   3
0        0   1   2   3   4   5   6   7   8   9  10  11
1       12  13  14  15  16  17  18  19  20  21  22  23
2       24  25  26  27  28  29  30  31  32  33  34  35
3       36  37  38  39  40  41  42  43  44  45  46  47
4       48  49  50  51  52  53  54  55  56  57  58  59

Pandas想让rhs侧对齐，毕竟你在使用不同的索引，所以你需要手动播放。这里有一个问题：

这是0.14.0中的一个新特性，请参见whatsnew。这有效地取代了对.xs的需求

减去这一点是非常重要的

[107]: df = pd.DataFrame(np.arange(5*12).reshape(-1,12), columns=col)

In [108]: df
Out[108]: 
first    A                       B                    
second   a           b           a           b        
third    1   2   3   1   2   3   1   2   3   1   2   3
0        0   1   2   3   4   5   6   7   8   9  10  11
1       12  13  14  15  16  17  18  19  20  21  22  23
2       24  25  26  27  28  29  30  31  32  33  34  35
3       36  37  38  39  40  41  42  43  44  45  46  47
4       48  49  50  51  52  53  54  55  56  57  58  59

Pandas想让rhs侧对齐，毕竟你在使用不同的索引，所以你需要手动播放。这里有一个问题：

嘿，这是个好消息@Jeff！它使切片更容易。现在与此相关，这是我的最终目标：如何将每个多索引的第1列减为第2列，第3列？这更接近我所看到的，但我希望保持第1列在数据帧中的状态。在我的应用程序中，第1列是减去其他列的参考数据。多重索引是测量的不同“运行”。我更新了，你可以使用相同的掩码简单地设置。讽刺的是，这就是rhs不简单的“原因”。太好了，这就是我想要的！有点奇怪的是，在多索引数据帧的列中没有一种完整的方法来进行计算，但这个技巧很简单，效果很好。谢谢你@Jeff但是尝试做什么并不明显也不简单-你尝试用一种非常奇怪的方式做广播嘿，这是个好消息@Jeff！它使切片更容易。现在与此相关，这是我的最终目标：如何将每个多索引的第1列减为第2列，第3列？这更接近我所看到的，但我希望保持第1列在数据帧中的状态。在我的应用程序中，第1列是减去其他列的参考数据。多重索引是测量的不同“运行”。我更新了，你可以使用相同的掩码简单地设置。讽刺的是，这就是rhs不简单的“原因”。太好了，这就是我想要的！有点奇怪的是，在多索引数据帧的列中没有一种完整的方法来进行计算，但这个技巧很简单，效果很好。谢谢@Jeff但尝试做什么既不明显也不简单-或者尝试以一种非常奇怪的方式进行广播谢谢@Gregor，这是可行的，但是Jeff指出了熊猫0.14的一个新功能，它更有效。过来看！感谢@Jeff指出IndexSlice功能，我到目前为止也没有使用该功能。感谢@Gregor，这是可行的，但Jeff指出了Pandas 0.14的一个新功能，该功能更有效。过来看！感谢@Jeff指向indexlice特性，我到目前为止也没有使用它。