Python 如何使用pandas query()在查询表达式中正确引用多索引列标题?

Python 如何使用pandas query()在查询表达式中正确引用多索引列标题?,python,pandas,Python,Pandas,使用简单(单级)列索引,可以使用.query()访问数据帧中的列,如下所示: df1 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=['A','B']) df1.query('A > 0.5') 我正努力在具有列多索引的数据帧中实现类似的功能: df2 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=[['A','B'],['C','D']])

使用简单(单级)列索引,可以使用.query()访问数据帧中的列,如下所示:

df1 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=['A','B'])
df1.query('A > 0.5')
我正努力在具有列多索引的数据帧中实现类似的功能:

df2 = pd.DataFrame(np.random.rand(10,2),index=range(10),columns=[['A','B'],['C','D']])
df2.query('(A,C) > 0.5') # fails
df2.query('"(A,C)" > 0.5') # fails
df2.query('("A","C") > 0.5') # fails
这可行吗?谢谢

(至于动机:query()似乎允许对行多索引-列单索引数据帧进行非常简洁的选择,例如:

df3 = pd.DataFrame(np.random.rand(6,2),index=[[0]*3+[1]*3,range(2,8)],columns=['A','B'])
df3.index.names=['one','two']
df3.query('one==0 & two<4 & A>0.5')
df3=pd.DataFrame(np.random.rand(6,2),索引=[[0]*3+[1]*3,范围(2,8)],列=['A','B']
df3.index.names=['one','two']
查询('one==0&two0.5')
我想对两个轴上的DF多索引进行类似的操作…

在github上有一个这样的工具,但同时,一个建议的解决方法是通过DataFrame变量通过
@
符号引用列:

df2.query("@df2.A.C > 0.5")

这不是一个完美的解决办法。如果标题名/级别包含空格,则需要先删除/重命名它们。

多重索引可能会带来更多麻烦。当你需要它时,它真的很方便,但你通常不需要它。如果你想使用查询,我倾向于建议你重构你的数据框架。我想这是一个经常遇到的问题,我很惊讶这个问题没有被发现#积压