Python 在dataframe中随机选择的实例上聚合

Python 在dataframe中随机选择的实例上聚合,python,pandas,dataframe,Python,Pandas,Dataframe,我有一个四列数据框: prev (String) | curr (String) | n (int) other-g | Abba | 5 other-e | Abba | 2 other-g | Bert | 9 有多个实例具有相同的curr属性,其n和prev不同。我想将它们聚集在不同的prev属性上,并计算n个属性 结果应该是: 当前:上交A股占59.3%->总n股,上交B股占23.2% 问题是我想从一个大于1GB.tsv的大数据帧中随机选择大约1000个不同的curr属性。我会尝试从d

我有一个四列数据框:

prev (String) | curr (String) | n (int)
other-g | Abba | 5
other-e | Abba | 2
other-g | Bert | 9
有多个实例具有相同的curr属性,其n和prev不同。我想将它们聚集在不同的prev属性上,并计算n个属性

结果应该是:

当前:上交A股占59.3%->总n股,上交B股占23.2%


问题是我想从一个大于1GB.tsv的大数据帧中随机选择大约1000个不同的curr属性。我会尝试从dataframe中随机选择一行,然后查询相应的curr,以查找具有该属性的所有实例,但这似乎相当复杂,我甚至无法让它工作。有什么好的方法可以做到这一点呢?

因为我看到了一个3列的data.frame,所以它一开始就不好……您应该发布实际的dataframe。显然不是全部,但至少是相关部分。从ipython shell复制和粘贴效果很好。考虑设置PREV列作为索引。值得注意的是,即使对于25Gb左右的文件,pandas也可以非常快速地解析。您甚至可能不需要随机选择。如果您担心运行时间。如果随机抽样是为了统计,那就另当别论了。我认为这不会太复杂。查看索引、多重索引和聚合。