Python 如何从单独的数据帧中指定训练集和测试集?

Python 如何从单独的数据帧中指定训练集和测试集?,python,pandas,scikit-learn,classification,training-data,Python,Pandas,Scikit Learn,Classification,Training Data,我有一个数据框架,其中混合了新闻文章和Facebook帖子(全文),并有一个相应的标签(所有文本的一组标签,包括文章和帖子)。然而,我想在这两种文本(文章和帖子)上训练我的分类器,但我的测试集中只有facebook帖子。是否仍要指定一组行(按“源”列分组),从中提取测试集 我正在使用 sklearn.model_selection import train_test_split 和分类模型的SimpleTransformer 谢谢 拆分是通过以下方式完成的: # create X X = df

我有一个数据框架,其中混合了新闻文章和Facebook帖子(全文),并有一个相应的标签(所有文本的一组标签,包括文章和帖子)。然而,我想在这两种文本(文章和帖子)上训练我的分类器,但我的测试集中只有facebook帖子。是否仍要指定一组行(按“源”列分组),从中提取测试集

我正在使用

sklearn.model_selection import train_test_split
和分类模型的SimpleTransformer


谢谢

拆分是通过以下方式完成的:

# create X
X = df[<columns>]
# create y
y = df[<one column>]
# split to train and test
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.3, random_state=123, stratify = y)

如何确保它们在标签编码器中获得相同的标签?请解释您的意思
df = df1.append(df2)