Python 熊猫中的Cumsum.groupby很慢

Python 熊猫中的Cumsum.groupby很慢,python,pandas,cumsum,large-data,Python,Pandas,Cumsum,Large Data,我想知道是否有一个更快的方法来运行熊猫cumsum 例如: import numpy as np import pandas as pd n = 10000000 values = np.random.randint(1, 100000, n) ids = values.astype("S10") df = pd.DataFrame({"ids": ids, "val": values}) 现在,我想使用ID进行分组并获得一些统计数据。 例如,max非常快: time df.group

我想知道是否有一个更快的方法来运行熊猫cumsum

例如:

import numpy as np
import pandas as pd

n = 10000000

values = np.random.randint(1, 100000, n)
ids = values.astype("S10")

df = pd.DataFrame({"ids": ids, "val": values})
现在,我想使用ID进行分组并获得一些统计数据。 例如,max非常快:

 time df.groupby("ids").val.max()
CPU时间:用户5.08秒,系统131毫秒,总计5.21秒 壁时间:5.22秒

但是,累计速度非常慢:

time df.groupby("ids").val.cumsum()
CPU时间:用户26.8秒,系统:707毫秒,总计:27.5秒 壁时间:27.6秒

我的问题是,我需要一个大数据集中的按键分组的累积和,几乎如图所示,但这需要几分钟的时间。有没有办法让它更快


谢谢

cumsum不是在cython ATM中实现的,请看这里的问题:,因此它必须回到python cython,因此速度较慢。欢迎拉取更新请求!嗨,杰夫,谢谢你的更新。很高兴知道我至少在这里没有做傻事