Python 在dataframe中随机选择的实例上聚合_Python_Pandas_Dataframe

Python 在dataframe中随机选择的实例上聚合

python pandas dataframe

Python 在dataframe中随机选择的实例上聚合,python,pandas,dataframe,Python,Pandas,Dataframe,我有一个四列数据框： prev (String) | curr (String) | n (int) other-g | Abba | 5 other-e | Abba | 2 other-g | Bert | 9 有多个实例具有相同的curr属性，其n和prev不同。我想将它们聚集在不同的prev属性上，并计算n个属性结果应该是：当前：上交A股占59.3%->总n股，上交B股占23.2% 问题是我想从一个大于1GB.tsv的大数据帧中随机选择大约1000个不同的curr属性。我会尝试从d

我有一个四列数据框：

prev (String) | curr (String) | n (int)
other-g | Abba | 5
other-e | Abba | 2
other-g | Bert | 9

有多个实例具有相同的curr属性，其n和prev不同。我想将它们聚集在不同的prev属性上，并计算n个属性

结果应该是：

当前：上交A股占59.3%->总n股，上交B股占23.2%

问题是我想从一个大于1GB.tsv的大数据帧中随机选择大约1000个不同的curr属性。我会尝试从dataframe中随机选择一行，然后查询相应的curr，以查找具有该属性的所有实例，但这似乎相当复杂，我甚至无法让它工作。有什么好的方法可以做到这一点呢？

因为我看到了一个3列的data.frame，所以它一开始就不好……您应该发布实际的dataframe。显然不是全部，但至少是相关部分。从ipython shell复制和粘贴效果很好。考虑设置PREV列作为索引。值得注意的是，即使对于25Gb左右的文件，pandas也可以非常快速地解析。您甚至可能不需要随机选择。如果您担心运行时间。如果随机抽样是为了统计，那就另当别论了。我认为这不会太复杂。查看索引、多重索引和聚合。