Python 使用更多功能时，功能选择中的错误栏会增加？_Python_Scikit Learn_Random Forest_Training Data_Feature Selection

Python 使用更多功能时，功能选择中的错误栏会增加？

python scikit-learn

Python 使用更多功能时，功能选择中的错误栏会增加？,python,scikit-learn,random-forest,training-data,feature-selection,Python,Scikit Learn,Random Forest,Training Data,Feature Selection,下面我将使用随机林来确定特征的重要性。当使用大量功能且仅使用这些功能的一个子集时，我分别观察到以下结果：使用所有可能的功能时，误差条急剧增加是否有特殊原因？负数有什么意义吗？（注意：两个图中x轴上的特定标签不一定对应。）当您仅使用最重要的功能时，发生错误的可能性较小（或者模型错误地学习不应该学习的模式的可能性较小）不使用功能重要性您的模型很有可能在不应该的地方捕获模式，因此在不应该的地方重视不太重要的特性另外，随机林是决策树的集合，有些可能捕获正确的特征重要性，有些可能不捕获最重

下面我将使用随机林来确定特征的重要性。当使用大量功能且仅使用这些功能的一个子集时，我分别观察到以下结果：

使用所有可能的功能时，误差条急剧增加是否有特殊原因？负数有什么意义吗？（注意：两个图中x轴上的特定标签不一定对应。）

当您仅使用最重要的功能时，发生错误的可能性较小（或者模型错误地学习不应该学习的模式的可能性较小）

不使用功能重要性

您的模型很有可能在不应该的地方捕获模式，因此在不应该的地方重视不太重要的特性
另外，随机林是决策树的集合，有些可能捕获正确的特征重要性，有些可能不捕获
最重要的树具有如此高的错误率，因为在某些树中，它们可能会被完全忽略，或者被给予最少的重要性。而有些人可能会正确地捕捉到它
因此，频谱的两端都会导致如此高的错误率

使用功能重要性

连续删除最不重要的特征，导致在连续的树中，根本不会考虑该特征（因此特征重要性发生错误的可能性较小）
连续这样做可以提高反复选择更重要的特征进行分割的机会，因此误差相对较小