Machine learning 使用当前无效的输入数据进行预测_Machine Learning_Statistics_Artificial Intelligence_Prediction_Forecasting

Machine learning 使用当前无效的输入数据进行预测

machine-learning statistics artificial-intelligence

Machine learning 使用当前无效的输入数据进行预测,machine-learning,statistics,artificial-intelligence,prediction,forecasting,Machine Learning,Statistics,Artificial Intelligence,Prediction,Forecasting,假设我们有一些数据（输入），我们想用这些数据来预测一些输出。如果特定输入可以采用的可能值随着时间的推移而改变，是否仍然适合使用所有数据让我试着用一个例子来澄清。假设其中一个输入是一个分类变量，它在数据中具有唯一的值[a，B，C]，但我们知道，在我们最终进行预测的当前设置中，只有值[a，B]是可能的如果C不是唯一映射到目标变量，而是与a或/和B共享一些目标变量，那么使用所有数据还是合适的，还是应该排除所有包含C的观察值。在这种情况下，将C留在数据集中，知道它肯定不会出现在未来的输入中（即，您预

假设我们有一些数据（输入），我们想用这些数据来预测一些输出。如果特定输入可以采用的可能值随着时间的推移而改变，是否仍然适合使用所有数据

让我试着用一个例子来澄清。假设其中一个输入是一个分类变量，它在数据中具有唯一的值

[a，B，C]

，但我们知道，在我们最终进行预测的当前设置中，只有值

[a，B]

是可能的

如果

不是唯一映射到目标变量，而是与

或/和

共享一些目标变量，那么使用所有数据还是合适的，还是应该排除所有包含

的观察值。在这种情况下，将

留在数据集中，知道它肯定不会出现在未来的输入中（即，您预测未知输入的位置），将调整模型的假设（这取决于模型，线性模型更倾向于此），最终假设将基于冗余信息

简单地说：In-Sample并不代表Out-of-Sample，因此它会过拟合，不会泛化

视情况而定。如果其余的输入变量为模型提供了丰富的信息，那么您的模型将从这些“C”数据中学到一些有用的东西。如果这个分类变量是最强的预测因子，那么您可能只需要在“A”和“B”情况下训练模型。@Stergios谢谢您的回答。我很难从理论的角度理解这一点，但你的意思是“无效”的观察结果不一定是垃圾。@Yahya我不知道你的意思。也许我不清楚，但无论如何，“变化”是在一组可能的值中。所以问题是，这种变化是否会导致“旧”数据的使用变得不合适。几乎，除了你可以假设C永远不会成为未来预测的可能输入之外。然而，当出现在历史数据中时，C具有解释力。@Yahya让我们假设只有一个目标，它是一个二进制目标。