Python 熊猫中的Cumsum.groupby很慢_Python_Pandas_Cumsum_Large Data

Python 熊猫中的Cumsum.groupby很慢

python pandas

Python 熊猫中的Cumsum.groupby很慢,python,pandas,cumsum,large-data,Python,Pandas,Cumsum,Large Data,我想知道是否有一个更快的方法来运行熊猫cumsum 例如： import numpy as np import pandas as pd n = 10000000 values = np.random.randint(1, 100000, n) ids = values.astype("S10") df = pd.DataFrame({"ids": ids, "val": values}) 现在，我想使用ID进行分组并获得一些统计数据。例如，max非常快： time df.group

我想知道是否有一个更快的方法来运行熊猫cumsum

例如：

import numpy as np
import pandas as pd

n = 10000000

values = np.random.randint(1, 100000, n)
ids = values.astype("S10")

df = pd.DataFrame({"ids": ids, "val": values})

现在，我想使用ID进行分组并获得一些统计数据。例如，max非常快：

 time df.groupby("ids").val.max()

CPU时间：用户5.08秒，系统131毫秒，总计5.21秒壁时间：5.22秒

但是，累计速度非常慢：

time df.groupby("ids").val.cumsum()

CPU时间：用户26.8秒，系统：707毫秒，总计：27.5秒壁时间：27.6秒

我的问题是，我需要一个大数据集中的按键分组的累积和，几乎如图所示，但这需要几分钟的时间。有没有办法让它更快

谢谢

cumsum不是在cython ATM中实现的，请看这里的问题：，因此它必须回到python cython，因此速度较慢。欢迎拉取更新请求！嗨，杰夫，谢谢你的更新。很高兴知道我至少在这里没有做傻事