Python 如何在pandas中获取数据集的x%_Python_Pandas

Python 如何在pandas中获取数据集的x%

python pandas

Python 如何在pandas中获取数据集的x%,python,pandas,Python,Pandas,我的数据集几乎有30万行。这些是数据集的标签现在我想得到每个标签的10%，用于早期分析和算法。这是一个粗略的估计。当然，我希望其中包含混洗行，这意味着我不希望执行df[df['Label']==良性].iloc[0:235909，：]，因为这将获得前235k行，但我希望从中获得混洗行。怎么做？试试sample df.groupby('Label').sample(frac=0.1) 编辑：要为一个类采样不同的分数： df.groupby('Label').apply(lambda x

我的数据集几乎有30万行。这些是数据集的标签

现在我想得到每个标签的10%，用于早期分析和算法。这是一个粗略的估计。

当然，我希望其中包含混洗行，这意味着我不希望执行

df[df['Label']==良性].iloc[0:235909，：]

，因为这将获得前235k行，但我希望从中获得混洗行。怎么做？

试试

sample

df.groupby('Label').sample(frac=0.1)

编辑：要为一个类采样不同的分数：

df.groupby('Label').apply(lambda x: x.sample(frac=0.01 if x.Label.iloc[0]=='Benign' else 0.1)