Python 将数据帧中的辅助索引重置为从1开始_Python_Pandas_Dataframe_Multi Index

Python 将数据帧中的辅助索引重置为从1开始

python pandas dataframe

Python 将数据帧中的辅助索引重置为从1开始,python,pandas,dataframe,multi-index,Python,Pandas,Dataframe,Multi Index,假设我构建了一个多索引数据帧，如图所示： prim_ind=np.array(range(0,1000)) for i in range(0,1000): prim_ind[i]=round(i/4) d = {'prim_ind' :prim_ind, 'sec_ind' : np.array(range(1,1001)), 'a' : np.array(range(325,1325)), 'b' : np.array(range(8318,9318))

假设我构建了一个多索引数据帧，如图所示：

prim_ind=np.array(range(0,1000))
for i in range(0,1000):
    prim_ind[i]=round(i/4)

d = {'prim_ind' :prim_ind,
     'sec_ind' : np.array(range(1,1001)),
     'a' : np.array(range(325,1325)),
     'b' : np.array(range(8318,9318))}

df= pd.DataFrame(d).set_index(['prim_ind','sec_ind'])

sec_ind从1开始按顺序运行，但我想重置第二个索引，以便对于每个prim_ind级别，sec_ind始终从1开始。我一直在尝试，如果我可以使用重置索引来做这件事，但我失败得很惨

我知道我可以迭代数据帧来得到这个结果，但这将是一个可怕的方法，必须有一个更pythonic的方法-有人能帮忙吗

注意：我使用的数据框实际上是从csv导入的，上面的代码只是为了说明这个问题。

您可以用于计数类别

df.index = [df.index.get_level_values(0), df.groupby(level=0).cumcount() + 1]

如果还需要使用索引名，则更好：

因此，列

sec_ind

不是必需的，您还可以使用：

d = {'prim_ind' :prim_ind,
     'a' : np.array(range(325,1325)),
     'b' : np.array(range(8318,9318))}

df = pd.DataFrame(d)
print (df.head(8))
     a     b  prim_ind
0  325  8318         0
1  326  8319         0
2  327  8320         0
3  328  8321         1
4  329  8322         1
5  330  8323         1
6  331  8324         2
7  332  8325         2

df = df.set_index(['prim_ind', df.groupby('prim_ind').cumcount() + 1]) \
       .rename_axis(('first','second'))
print (df.head(8))

                a     b
first second           
0     1       325  8318
      2       326  8319
      3       327  8320
1     1       328  8321
      2       329  8322
      3       330  8323
2     1       331  8324
      2       332  8325

非常感谢！解决了我的问题。你的第一个建议很有效，然后我做了

df.index.rename（['prim'，'sec']，inplace=True）

来重新引入索引名。

d = {'prim_ind' :prim_ind,
     'a' : np.array(range(325,1325)),
     'b' : np.array(range(8318,9318))}

df = pd.DataFrame(d)
print (df.head(8))
     a     b  prim_ind
0  325  8318         0
1  326  8319         0
2  327  8320         0
3  328  8321         1
4  329  8322         1
5  330  8323         1
6  331  8324         2
7  332  8325         2

df = df.set_index(['prim_ind', df.groupby('prim_ind').cumcount() + 1]) \
       .rename_axis(('first','second'))
print (df.head(8))

                a     b
first second           
0     1       325  8318
      2       326  8319
      3       327  8320
1     1       328  8321
      2       329  8322
      3       330  8323
2     1       331  8324
      2       332  8325