Python 如何在pandas中获取数据集的x%

Python 如何在pandas中获取数据集的x%,python,pandas,Python,Pandas,我的数据集几乎有30万行。这些是数据集的标签 现在我想得到每个标签的10%,用于早期分析和算法。这是一个粗略的估计。 当然,我希望其中包含混洗行,这意味着我不希望执行df[df['Label']==良性].iloc[0:235909,:],因为这将获得前235k行,但我希望从中获得混洗行。怎么做?试试sample df.groupby('Label').sample(frac=0.1) 编辑:要为一个类采样不同的分数: df.groupby('Label').apply(lambda x

我的数据集几乎有30万行。这些是数据集的标签

现在我想得到每个标签的10%,用于早期分析和算法。这是一个粗略的估计。


当然,我希望其中包含混洗行,这意味着我不希望执行
df[df['Label']==良性].iloc[0:235909,:]
,因为这将获得前235k行,但我希望从中获得混洗行。怎么做?

试试
sample

df.groupby('Label').sample(frac=0.1)

编辑:要为一个类采样不同的分数:

df.groupby('Label').apply(lambda x: x.sample(frac=0.01 if x.Label.iloc[0]=='Benign' else 0.1)