Python 熊猫按特定列分组 描述
如何使用Pandas对某些列进行分组,而不是对其他列进行分组 当前进展 问题 如下图所示,这可以正确地按Geo_ID对成本进行求和。不幸的是,它也是按代码求和的 代码12、代码65和代码98应分别组合。此外,在实际数据集中,有100多个A_代码 资料 表DPython 熊猫按特定列分组 描述,python,pandas,dataframe,pandas-groupby,Python,Pandas,Dataframe,Pandas Groupby,如何使用Pandas对某些列进行分组,而不是对其他列进行分组 当前进展 问题 如下图所示,这可以正确地按Geo_ID对成本进行求和。不幸的是,它也是按代码求和的 代码12、代码65和代码98应分别组合。此外,在实际数据集中,有100多个A_代码 资料 表D +--------+--------+--------+ | Geo_ID | A_Code | A_Cost | +--------+--------+--------+ | 1 | 12 | 2 | |
+--------+--------+--------+
| Geo_ID | A_Code | A_Cost |
+--------+--------+--------+
| 1 | 12 | 2 |
| 1 | 12 | 9 |
| 1 | 12 | 1 |
| 1 | 65 | 10 |
| 2 | 65 | 6 |
| 3 | 65 | 7 |
| 4 | 65 | 7 |
| 4 | 98 | 6 |
| 5 | 98 | 2 |
+--------+--------+--------+
桌上假人
+---+--------+--------+-----------+-----------+-----------+
| | Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |
+---+--------+--------+-----------+-----------+-----------+
| 0 | 1 | 2 | 1 | 0 | 0 |
| 1 | 1 | 9 | 1 | 0 | 0 |
| 2 | 1 | 1 | 1 | 0 | 0 |
| 3 | 1 | 10 | 0 | 1 | 0 |
| 4 | 2 | 6 | 0 | 1 | 0 |
| 5 | 3 | 7 | 0 | 1 | 0 |
| 6 | 4 | 7 | 0 | 1 | 0 |
| 7 | 4 | 6 | 0 | 0 | 1 |
| 8 | 5 | 2 | 0 | 0 | 1 |
+---+--------+--------+-----------+-----------+-----------+
表格\u D\u假人\u分组
+--------+--------+-----------+-----------+-----------+
| Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |
+--------+--------+-----------+-----------+-----------+
| 1 | 22 | 3 | 1 | 0 |
| 2 | 6 | 0 | 1 | 0 |
| 3 | 7 | 0 | 1 | 0 |
| 4 | 13 | 0 | 1 | 1 |
| 5 | 2 | 0 | 0 | 1 |
+--------+--------+-----------+-----------+-----------+
您没有使用dummies表,而是将原始数据帧分组:
table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])
table_D_dummies_grouped = table_D.groupby(by = ["Geo_ID"]).sum()
您要在此处对表格虚拟对象进行分组:
>>> table_D_dummies
Geo_ID A_Cost A_Code_12 A_Code_65 A_Code_98
0 1 2 1 0 0
1 1 9 1 0 0
2 1 1 1 0 0
3 1 10 0 1 0
4 2 6 0 1 0
5 3 7 0 1 0
6 4 7 0 1 0
7 4 6 0 0 1
8 5 2 0 0 1
>>> table_D_dummies.groupby(by = ["Geo_ID"]).sum()
A_Cost A_Code_12 A_Code_65 A_Code_98
Geo_ID
1 22 3 1 0
2 6 0 1 0
3 7 0 1 0
4 13 0 1 1
5 2 0 0 1
如果需要计算每个虚拟对象的总成本,请将其添加到分组列中:
>>> table_D_dummies.groupby(by = [
... "Geo_ID",
... *(c for c in table_D_dummies.columns if c.startswith('A_Code_'))
... ]).sum()
A_Cost
Geo_ID A_Code_12 A_Code_65 A_Code_98
1 0 1 0 10
1 0 0 12
2 0 1 0 6
3 0 1 0 7
4 0 0 1 6
1 0 7
5 0 0 1 2
请以文本形式共享所有数据,请不要使用图像。图像无法复制,因此问题无法复制好的建议。网站生成ASCII表格用于在SO中显示表格。一般来说,当您将df作为文本发布时,人们会更清楚,这样他们就可以复制,并且符合您的解释(逻辑)检查的预期输出df在将来可能会有所帮助。干杯!:)你赢了我@anky_91。总是喜欢一个好的格式化技巧。没问题。我很高兴你承认老鼠,我在简化共享代码时引入了这个错误。这种修正仍然不能得到解决方案。谢谢大家!@PizzaAndCode:您还没有真正提供预期的输出,所以我们在这里猜测预期的结果。我添加了自动按虚拟分组。你猜对了,这是预期的。让我澄清一下这个问题,以便将来读者能更清楚地理解。
>>> table_D_dummies.groupby(by = [
... "Geo_ID",
... *(c for c in table_D_dummies.columns if c.startswith('A_Code_'))
... ]).sum()
A_Cost
Geo_ID A_Code_12 A_Code_65 A_Code_98
1 0 1 0 10
1 0 0 12
2 0 1 0 6
3 0 1 0 7
4 0 0 1 6
1 0 7
5 0 0 1 2