Python 在对数据框的一列进行装箱后,如何制作一个新的数据框来计算每个箱子中的元素数量?
假设我有一个数据帧,Python 在对数据框的一列进行装箱后,如何制作一个新的数据框来计算每个箱子中的元素数量?,python,pandas,dataframe,grouping,binning,Python,Pandas,Dataframe,Grouping,Binning,假设我有一个数据帧,df: >>> df Age Score 19 1 20 2 24 3 19 2 24 3 24 1 24 3 20 1 19 1 20 3 22 2 22 1 我想构建一个新的数据框,该数据框将存储箱Age,并将每个存储箱中的元素总数存储在不同的Score列中: Age Score 1 Score 2 Score 3 19-21
df
:
>>> df
Age Score
19 1
20 2
24 3
19 2
24 3
24 1
24 3
20 1
19 1
20 3
22 2
22 1
我想构建一个新的数据框,该数据框将存储箱Age
,并将每个存储箱中的元素总数存储在不同的Score
列中:
Age Score 1 Score 2 Score 3
19-21 2 4 3
22-24 2 2 9
这是我做这件事的方式,我觉得它非常复杂(意思是,它不应该这么难):
是否有更好、更清洁、更高效的方法来实现这一目标
cats = ['1', '2', '3']
bins = [0, 1, 2, 3]
data = data[['Age']].join(pd.get_dummies(pd.cut(data.Score, bins, labels=cats)))
data['bins'] = pd.cut(data['Age'], bins=[19,21,24], include_lowest=True)
data.groupby('bins').sum()
Age 1 2 3
bins
(18.999, 21.0] 117 3 2 1
(21.0, 24.0] 140 2 1 3
您可以删除/重命名垃圾箱和年龄序列,这需要一些调整才能正确包含这些内容。我不完全确定您想要什么结果(您是否将计数乘以分数…?),但这可能会有所帮助:
>>> data['age_binned'] = pd.cut(data['Age'], [18,21,24])
>>> data.groupby(['age_binned', 'Score'])['Age'].nunique().unstack()
Score 1 2 3
age_binned
(18, 21] 2 2 1
(21, 24] 2 1 1
我假设您想要唯一元素的数量,如果您只想要使用.count()而不是.nunique()的元素总数,我想您可以尝试以下方法之一: 1.如果您已经知道垃圾箱:
df['Age'] = np.where(df['Age']<=21,'19-21','22-24')
df.groupby(['Age'])['Score'].value_counts().unstack()
三,。评论中的想法:
pd.crosstab(pd.cut(df.Age, [19, 21, 24],include_lowest=True), df.Score)
这三种方法都会产生以下输出:
Score 1 2 3
Age
(18.999, 21.0] 3 2 1
(21.0, 24.0] 2 1 3
您可以从以下内容开始:
pd.crosstab(pd.cut(df.Age,[19,21,24]),df.Score)
…您还可以提到如何使用第二种方法使仓位限制整数而不是浮动吗?谢谢。@Kristada673在pd.cut
中使用precision=0
。
df.Age = pd.cut(df.Age, bins=2,include_lowest=True)
df.groupby(['Age'])['Score'].value_counts().unstack()
pd.crosstab(pd.cut(df.Age, [19, 21, 24],include_lowest=True), df.Score)
Score 1 2 3
Age
(18.999, 21.0] 3 2 1
(21.0, 24.0] 2 1 3