Python 按精确行数拆分列车/测试
有一个大约6000000行的数据集。我使用以下代码将数据集拆分为列车集和测试集:Python 按精确行数拆分列车/测试,python,dataframe,scikit-learn,Python,Dataframe,Scikit Learn,有一个大约6000000行的数据集。我使用以下代码将数据集拆分为列车集和测试集: from sklearn.model_selection import train_test_split train, test = train_test_split(df, test_size=0.3, random_state=42) 我想要的是在一定数量的行上精确地分割测试集,例如测试集有50000行 获得此信息的方法是什么?根据: 测试尺寸 float或int,如果float在0.0之间,则默认为None
from sklearn.model_selection import train_test_split
train, test = train_test_split(df, test_size=0.3, random_state=42)
我想要的是在一定数量的行上精确地分割测试集,例如测试集有50000行
获得此信息的方法是什么?根据:
测试尺寸
float或int,如果float在0.0之间,则默认为None
和1.0,表示要包含在
测试拆分。如果为int,则表示测试样本的绝对数量。如果
无,该值设置为列车尺寸的补码。如果
列车大小也为“无”,将设置为0.25
您可以为测试大小指定一个整数:
train, test = train_test_split(df, test_size=50000, random_state=42)