Python 熊猫按特定列分组描述_Python_Pandas_Dataframe_Pandas Groupby

Python 熊猫按特定列分组描述

python pandas dataframe

Python 熊猫按特定列分组描述,python,pandas,dataframe,pandas-groupby,Python,Pandas,Dataframe,Pandas Groupby,如何使用Pandas对某些列进行分组，而不是对其他列进行分组当前进展问题如下图所示，这可以正确地按Geo_ID对成本进行求和。不幸的是，它也是按代码求和的代码12、代码65和代码98应分别组合。此外，在实际数据集中，有100多个A_代码资料表D +--------+--------+--------+ | Geo_ID | A_Code | A_Cost | +--------+--------+--------+ | 1 | 12 | 2 | |

如何使用Pandas对某些列进行分组，而不是对其他列进行分组

当前进展问题如下图所示，这可以正确地按Geo_ID对成本进行求和。不幸的是，它也是按代码求和的

代码12、代码65和代码98应分别组合。此外，在实际数据集中，有100多个A_代码

资料表D

+--------+--------+--------+
| Geo_ID | A_Code | A_Cost |
+--------+--------+--------+
|      1 |     12 |      2 |
|      1 |     12 |      9 |
|      1 |     12 |      1 |
|      1 |     65 |     10 |
|      2 |     65 |      6 |
|      3 |     65 |      7 |
|      4 |     65 |      7 |
|      4 |     98 |      6 |
|      5 |     98 |      2 |
+--------+--------+--------+

桌上假人

+---+--------+--------+-----------+-----------+-----------+
|   | Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |
+---+--------+--------+-----------+-----------+-----------+
| 0 |      1 |      2 |         1 |         0 |         0 |
| 1 |      1 |      9 |         1 |         0 |         0 |
| 2 |      1 |      1 |         1 |         0 |         0 |
| 3 |      1 |     10 |         0 |         1 |         0 |
| 4 |      2 |      6 |         0 |         1 |         0 |
| 5 |      3 |      7 |         0 |         1 |         0 |
| 6 |      4 |      7 |         0 |         1 |         0 |
| 7 |      4 |      6 |         0 |         0 |         1 |
| 8 |      5 |      2 |         0 |         0 |         1 |
+---+--------+--------+-----------+-----------+-----------+

表格\u D\u假人\u分组

+--------+--------+-----------+-----------+-----------+
| Geo_ID | A_Cost | A_Code_12 | A_Code_65 | A_Code_98 |
+--------+--------+-----------+-----------+-----------+
|      1 |     22 |         3 |         1 |         0 |
|      2 |      6 |         0 |         1 |         0 |
|      3 |      7 |         0 |         1 |         0 |
|      4 |     13 |         0 |         1 |         1 |
|      5 |      2 |         0 |         0 |         1 |
+--------+--------+-----------+-----------+-----------+

您没有使用dummies表，而是将原始数据帧分组：

table_D_dummies = pd.get_dummies(data = table_D, columns = ["A_Code"])
table_D_dummies_grouped = table_D.groupby(by = ["Geo_ID"]).sum()

您要在此处对

表格虚拟对象进行分组：
>>> table_D_dummies
   Geo_ID  A_Cost  A_Code_12  A_Code_65  A_Code_98
0       1       2          1          0          0
1       1       9          1          0          0
2       1       1          1          0          0
3       1      10          0          1          0
4       2       6          0          1          0
5       3       7          0          1          0
6       4       7          0          1          0
7       4       6          0          0          1
8       5       2          0          0          1
>>> table_D_dummies.groupby(by = ["Geo_ID"]).sum()
        A_Cost  A_Code_12  A_Code_65  A_Code_98
Geo_ID
1           22          3          1          0
2            6          0          1          0
3            7          0          1          0
4           13          0          1          1
5            2          0          0          1

如果需要计算每个虚拟对象的总成本，请将其添加到分组列中：
>>> table_D_dummies.groupby(by = [
...     "Geo_ID",
...     *(c for c in table_D_dummies.columns if c.startswith('A_Code_'))
... ]).sum()
                                      A_Cost
Geo_ID A_Code_12 A_Code_65 A_Code_98
1      0         1         0              10
       1         0         0              12
2      0         1         0               6
3      0         1         0               7
4      0         0         1               6
                 1         0               7
5      0         0         1               2

请以文本形式共享所有数据，请不要使用图像。图像无法复制，因此问题无法复制好的建议。网站生成ASCII表格用于在SO中显示表格。一般来说，当您将df作为文本发布时，人们会更清楚，这样他们就可以复制，并且符合您的解释（逻辑）检查的预期输出df在将来可能会有所帮助。干杯！：）你赢了我@anky_91。总是喜欢一个好的格式化技巧。没问题。我很高兴你承认老鼠，我在简化共享代码时引入了这个错误。这种修正仍然不能得到解决方案。谢谢大家!@PizzaAndCode：您还没有真正提供预期的输出，所以我们在这里猜测预期的结果。我添加了自动按虚拟分组。你猜对了，这是预期的。让我澄清一下这个问题，以便将来读者能更清楚地理解。
>>> table_D_dummies.groupby(by = [
...     "Geo_ID",
...     *(c for c in table_D_dummies.columns if c.startswith('A_Code_'))
... ]).sum()
                                      A_Cost
Geo_ID A_Code_12 A_Code_65 A_Code_98
1      0         1         0              10
       1         0         0              12
2      0         1         0               6
3      0         1         0               7
4      0         0         1               6
                 1         0               7
5      0         0         1               2