Python 按精确行数拆分列车/测试

Python 按精确行数拆分列车/测试,python,dataframe,scikit-learn,Python,Dataframe,Scikit Learn,有一个大约6000000行的数据集。我使用以下代码将数据集拆分为列车集和测试集: from sklearn.model_selection import train_test_split train, test = train_test_split(df, test_size=0.3, random_state=42) 我想要的是在一定数量的行上精确地分割测试集,例如测试集有50000行 获得此信息的方法是什么?根据: 测试尺寸 float或int,如果float在0.0之间,则默认为None

有一个大约6000000行的数据集。我使用以下代码将数据集拆分为列车集和测试集:

from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.3, random_state=42)
我想要的是在一定数量的行上精确地分割测试集,例如测试集有50000行

获得此信息的方法是什么?

根据:

测试尺寸 float或int,如果float在0.0之间,则默认为None 和1.0,表示要包含在 测试拆分。如果为int,则表示测试样本的绝对数量。如果 无,该值设置为列车尺寸的补码。如果 列车大小也为“无”,将设置为0.25

您可以为测试大小指定一个整数:

train, test = train_test_split(df, test_size=50000, random_state=42)