R 随机林的预测性能:排列或运行不带排列变量的模型之间是否存在差异?

R 随机林的预测性能:排列或运行不带排列变量的模型之间是否存在差异?,r,performance,random-forest,R,Performance,Random Forest,我正在使用R包“ModelMap”生成随机森林(RF)模型(回归模型)。它提供了一个显示输入变量相对重要性的曲线图,通过测量输入变量xy在置换=消除其预测能力后的MSE(以输入变量xy的模型整体精度的%为单位)的降低。另一个图显示了基于使用测试数据(预测值与观察值)的模型验证的模型RMSE 现在,让我们生成另一个RF模型,不包括上述输入变量xy,并将RMSE与第一个模型的RMSE进行比较。结果几乎为0(单位为每ca 300 kg/ha),尽管先前模型的MSE下降表明变量xy下降了70%,但排除变

我正在使用R包“ModelMap”生成随机森林(RF)模型(回归模型)。它提供了一个显示输入变量相对重要性的曲线图,通过测量输入变量xy在置换=消除其预测能力后的MSE(以输入变量xy的模型整体精度的%为单位)的降低。另一个图显示了基于使用测试数据(预测值与观察值)的模型验证的模型RMSE

现在,让我们生成另一个RF模型,不包括上述输入变量xy,并将RMSE与第一个模型的RMSE进行比较。结果几乎为0(单位为每ca 300 kg/ha),尽管先前模型的MSE下降表明变量xy下降了70%,但排除变量xy应会导致性能下降

这种方法有意义吗?如果是,为什么第二个模型具有相同的预测性能


谢谢你的帮助

听起来你的模型不可推广。或者你有高度相关的预测因子——参见Strobl等人(2007年),我也投票选择了CVD。有人知道在排列变量后,模型是否被复制(包括被消除的变量xy),或者被排列的变量是否被用于同一模型的决策@Alex感谢您的评论,数据是不相关的,但是通过排除一些预测变量,模型运行良好!你说CV是什么意思?VI是通过排列后沿树向下运行观察值来计算的。不删除任何变量,谢谢Alex。我认为这解释了我的问题,因为比较(I)某个变量与(ii)模型的RMSE(排除相同变量)后MSE的增加的方法没有意义,因为后一个模型是在没有PV的情况下构建的,并且首先使用PV,因此根本不具有可比性。听起来你的模型是不可推广的。或者你有高度相关的预测因子——参见Strobl等人(2007年),我也投票选择了CVD。有人知道在排列变量后,模型是否被复制(包括被消除的变量xy),或者被排列的变量是否被用于同一模型的决策@Alex感谢您的评论,数据是不相关的,但是通过排除一些预测变量,模型运行良好!你说CV是什么意思?VI是通过排列后沿树向下运行观察值来计算的。不删除任何变量,谢谢Alex。我认为这解释了我的问题,因为比较(I)某个变量与(ii)模型的RMSE(排除相同变量)后MSE增加的方法是没有意义的,因为后一个模型是在没有PV的情况下构建的,并且首先与PV进行比较,因此根本不具有可比性。