Machine learning 通过添加更多的预测因子,降低准确率

Machine learning 通过添加更多的预测因子,降低准确率,machine-learning,Machine Learning,我运行了一些预测模型,如逻辑回归、支持向量机、决策树等。。。在数据集上。当我添加更多维度(预测因子)时,所有模型的准确率都会下降。我如何解释这一点?通常这意味着您正在添加的功能要么不重要,要么甚至与您已经拥有的其他功能密切相关。因此,您的模型可能从这些特性中提取训练集中的“随机”信号,然后无法将其应用于测试数据,因为它不是真实的模式 然而,对这类问题的解释是非常依赖于模型的。线性模型的行为与决策树不同(例如,它们对相关特征更敏感),因此它们会以相同的方式做出反应,这很奇怪。如果可以,请详细说明。

我运行了一些预测模型,如逻辑回归、支持向量机、决策树等。。。在数据集上。当我添加更多维度(预测因子)时,所有模型的准确率都会下降。我如何解释这一点?

通常这意味着您正在添加的功能要么不重要,要么甚至与您已经拥有的其他功能密切相关。因此,您的模型可能从这些特性中提取训练集中的“随机”信号,然后无法将其应用于测试数据,因为它不是真实的模式
然而,对这类问题的解释是非常依赖于模型的。线性模型的行为与决策树不同(例如,它们对相关特征更敏感),因此它们会以相同的方式做出反应,这很奇怪。如果可以,请详细说明。

您是在谈论测试集还是训练集的准确性?您是对的,逻辑回归没有SVM和决策树下降那么多-实际上是3%对13%。如何找到预测值之间的相关性,例如在scikit学习中,如何添加相关性较小的预测值(或删除相关性较大的预测值)?对于熊猫数据帧,您可以使用
df.corr()
,它将为您提供一个相关矩阵。从那里你可以看到哪些特征是相关的。根据领域知识创建新功能取决于您。最后,您还可以删除模型中表现不佳的功能(基于逻辑或可变重要性的p值)。