Python TF IDF加权测试数据中的频率分数,使用SVC训练模型

Python TF IDF加权测试数据中的频率分数,使用SVC训练模型,python,machine-learning,svm,tf-idf,Python,Machine Learning,Svm,Tf Idf,我正在训练一个关于文本描述的预测模型和与之对应的标签。我正在使用SVC对数据语料库进行tf idf加权词频的训练。我想了解是否有一组新的datatest,而不是使用我想分类的train test split,是否应该使用tf idf对其进行矢量化。如果是,是单独对测试数据进行还是与训练数据一起进行?通常,TfIdf矢量器仅适用于训练数据,为了以相同的格式获得测试数据,我们进行变换操作。这主要是为了避免数据泄漏。请参阅 因此,首先使用tf idf矢量器拟合和转换列车数据,然后对于任何传入的数据集,

我正在训练一个关于文本描述的预测模型和与之对应的标签。我正在使用SVC对数据语料库进行tf idf加权词频的训练。我想了解是否有一组新的datatest,而不是使用我想分类的train test split,是否应该使用tf idf对其进行矢量化。如果是,是单独对测试数据进行还是与训练数据一起进行?

通常,TfIdf矢量器仅适用于训练数据,为了以相同的格式获得测试数据,我们进行变换操作。这主要是为了避免数据泄漏。请参阅

因此,首先使用tf idf矢量器拟合和转换列车数据,然后对于任何传入的数据集,您可以使用相同的tf idf矢量器对tf idf矢量进行所需的转换

你可以这样做

x_train, x_test, y_train, y_test = train_test_split(
    x, y, test_size=0.3, random_state=101
)


transformer = TfidfTransformer()
x_train_tf = transformer.fit_transform(x_train)
x_test_tf = transformer.transform(x_test)

感谢您的及时回复,在测试数据TfIdf=loadtfidf Combined_80perc_v7_df5.pickle的测试数据TfIdf分数上使用训练集的TfIdf分数有意义吗?导入TfIdf模型矢量化数据帧以将输入数据馈送到模型测试中\u features=TfIdf.transformdf\u check.Text\u Combined.ToArray是否可以共享您的代码片段?这给了我们一个清晰的画面。