Python 使用更多功能时,功能选择中的错误栏会增加?

Python 使用更多功能时,功能选择中的错误栏会增加?,python,scikit-learn,random-forest,training-data,feature-selection,Python,Scikit Learn,Random Forest,Training Data,Feature Selection,下面我将使用随机林来确定特征的重要性。当使用大量功能且仅使用这些功能的一个子集时,我分别观察到以下结果: 使用所有可能的功能时,误差条急剧增加是否有特殊原因?负数有什么意义吗?(注意:两个图中x轴上的特定标签不一定对应。)当您仅使用最重要的功能时,发生错误的可能性较小(或者模型错误地学习不应该学习的模式的可能性较小) 不使用功能重要性 您的模型很有可能在不应该的地方捕获模式,因此在不应该的地方重视不太重要的特性 另外,随机林是决策树的集合,有些可能捕获正确的特征重要性,有些可能不捕获 最重

下面我将使用随机林来确定特征的重要性。当使用大量功能且仅使用这些功能的一个子集时,我分别观察到以下结果:


使用所有可能的功能时,误差条急剧增加是否有特殊原因?负数有什么意义吗?(注意:两个图中x轴上的特定标签不一定对应。)

当您仅使用最重要的功能时,发生错误的可能性较小(或者模型错误地学习不应该学习的模式的可能性较小)

不使用功能重要性

  • 您的模型很有可能在不应该的地方捕获模式,因此在不应该的地方重视不太重要的特性
  • 另外,随机林是决策树的集合,有些可能捕获正确的特征重要性,有些可能不捕获
  • 最重要的树具有如此高的错误率,因为在某些树中,它们可能会被完全忽略,或者被给予最少的重要性。而有些人可能会正确地捕捉到它
  • 因此,频谱的两端都会导致如此高的错误率
使用功能重要性

  • 连续删除最不重要的特征,导致在连续的树中,根本不会考虑该特征(因此特征重要性发生错误的可能性较小)
  • 连续这样做可以提高反复选择更重要的特征进行分割的机会,因此误差相对较小