Python 文本挖掘预处理必须应用于测试还是训练集?

Python 文本挖掘预处理必须应用于测试还是训练集?,python,nlp,text-mining,sentiment-analysis,Python,Nlp,Text Mining,Sentiment Analysis,我正在做一些文本挖掘任务,我有一个如此简单的问题,我仍然无法得出结论 我正在对我的训练集应用预处理,例如标记化和词干分析,以便训练我的模型 我是否也应该将此预处理应用于我的测试集?是的,您应该将相同的内容应用于您的测试集。因为您的测试集必须表示您的列车集,所以它们应该来自相同的分布。让我们直观地思考一下: 你将参加考试。为了准备考试并获得正常的成绩,讲师应该在讲座中询问相同的科目。但是,如果讲师提出的问题完全不同,没有人见过,就不可能得到正常的结果。当然你应该这样做。如果没有,您如何将测试数据输

我正在做一些文本挖掘任务,我有一个如此简单的问题,我仍然无法得出结论

我正在对我的训练集应用预处理,例如标记化和词干分析,以便训练我的模型


我是否也应该将此预处理应用于我的测试集?

是的,您应该将相同的内容应用于您的测试集。因为您的测试集必须表示您的列车集,所以它们应该来自相同的分布。让我们直观地思考一下:


你将参加考试。为了准备考试并获得正常的成绩,讲师应该在讲座中询问相同的科目。但是,如果讲师提出的问题完全不同,没有人见过,就不可能得到正常的结果。

当然你应该这样做。如果没有,您如何将测试数据输入到经过培训的模型中