Python 3.x 高效地分组数据集,同时保留其他列

Python 3.x 高效地分组数据集,同时保留其他列,python-3.x,Python 3.x,我有一个大型数据集“df”,我只是尝试按一个值“a”分组,对另一个值“B”求和,然后保留其余的列“C”-“Z”(如果“a”相同,它们将是相同的。我目前正在做: df = df.groupby(['A', 'C', 'D', ... 'Z'])['B'].sum() 然而,这需要很长时间来执行。有没有更有效的方法来执行 谢谢这可能是一个数据库派上用场的例子 将数

我有一个大型数据集“df”,我只是尝试按一个值“a”分组,对另一个值“B”求和,然后保留其余的列“C”-“Z”(如果“a”相同,它们将是相同的。我目前正在做:

df = df.groupby(['A',
                 'C',
                 'D',
                 ...
                 'Z'])['B'].sum()
然而,这需要很长时间来执行。有没有更有效的方法来执行


谢谢

这可能是一个数据库派上用场的例子

将数据放入表中

然后只需
按A选择A、SUM(B)、C组

数据库将比python更快地执行聚合函数,尤其是在大型数据集上