Python 将所有索引保留在多层次的组中
我有以下数据框:Python 将所有索引保留在多层次的组中,python,pandas,dataframe,indexing,pandas-groupby,Python,Pandas,Dataframe,Indexing,Pandas Groupby,我有以下数据框: df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T df.colum
df = pd.DataFrame([[1.1, 1.1, 1.1, 2.6, 2.5, 3.4,2.6,2.6,3.4,3.4,2.6,1.1,1.1,3.3], list('AAABBBBABCBDDD'), [1.1, 1.7, 2.5, 2.6, 3.3, 3.8,4.0,4.2,4.3,4.5,4.6,4.7,4.7,4.8], ['1','3','3','2','4','2','5','3','6','3','5','1','1','1']]).T
df.columns = ['col1','col2','col3','col4']
当我将其分组时,我得到:
df.groupby(['col4','col2']).sum()
col1 col3
col4 col2
1 A 1.1 1.1
D 5.5 14.2
2 B 6.0 6.4
3 A 4.8 8.4
C 3.4 4.5
4 B 2.5 3.3
5 B 5.2 8.6
6 B 3.4 4.3
然而,我希望每个一级索引都有相同的二级索引。这是不可能的,因为缺少数据。我希望达到的目标是:
col1 col3
col4 col2
1 A 1.1 1.1
B 0 0
C 0 0
D 5.5 14.2
2 A 0 0
B 6.0 6.4
C 0 0
D 0 0
3 A 4.8 8.4
B 0 0
C 3.4 4.5
D 0 0
4 A 0 0
B 2.5 3.3
C 0 0
D 0 0
5 A 0 0
B 5.2 8.6
C 0 0
D 0 0
6 A 0 0
B 3.4 4.3
C 0 0
D 0 0
您可以从数据中创建一个新的
多索引
,以及重新索引
,如下所示
In [6]: idx = pd.MultiIndex.from_product([df.col4.unique(), df.col2.unique()])
In [9]: (df.groupby(['col4','col2']).sum()
.reindex(idx).fillna(0))
Out[9]:
col1 col3
1 A 1.1 1.1
B 0.0 0.0
C 0.0 0.0
D 5.5 14.2
3 A 4.8 8.4
B 0.0 0.0
C 3.4 4.5
D 0.0 0.0
2 A 0.0 0.0
B 6.0 6.4
C 0.0 0.0
D 0.0 0.0
4 A 0.0 0.0
B 2.5 3.3
C 0.0 0.0
D 0.0 0.0
5 A 0.0 0.0
B 5.2 8.6
C 0.0 0.0
D 0.0 0.0
6 A 0.0 0.0
B 3.4 4.3
C 0.0 0.0
D 0.0 0.0
您可以从数据中创建一个新的
多索引
,以及重新索引
,如下所示
In [6]: idx = pd.MultiIndex.from_product([df.col4.unique(), df.col2.unique()])
In [9]: (df.groupby(['col4','col2']).sum()
.reindex(idx).fillna(0))
Out[9]:
col1 col3
1 A 1.1 1.1
B 0.0 0.0
C 0.0 0.0
D 5.5 14.2
3 A 4.8 8.4
B 0.0 0.0
C 3.4 4.5
D 0.0 0.0
2 A 0.0 0.0
B 6.0 6.4
C 0.0 0.0
D 0.0 0.0
4 A 0.0 0.0
B 2.5 3.3
C 0.0 0.0
D 0.0 0.0
5 A 0.0 0.0
B 5.2 8.6
C 0.0 0.0
D 0.0 0.0
6 A 0.0 0.0
B 3.4 4.3
C 0.0 0.0
D 0.0 0.0
为了解释缺少的索引,您可能需要对df.groupby(['col4','col2']).sum()返回的数据帧重新编制索引。:
请注意,
unique()
按值在列中出现的顺序返回值(例如,此处“3”出现在“2”之前)。您可以通过在重新编制索引的数据帧上使用.sortlevel(0)
来更正此问题。若要解释缺少的索引,您可能需要重新编制由df.groupby(['col4','col2']].sum()返回的数据帧的索引:
请注意,unique()
按值在列中出现的顺序返回值(例如,此处“3”出现在“2”之前)。您可以通过在重新索引的数据帧上使用.sortlevel(0)
来更正此问题