Machine learning sklearn中的哪些预测模型受训练数据框中列的顺序影响?

Machine learning sklearn中的哪些预测模型受训练数据框中列的顺序影响?,machine-learning,scikit-learn,Machine Learning,Scikit Learn,我想知道Sci kit Learn提供的任何估计器是否受到数据帧中列的顺序的影响。我尝试使用ExtraTreesRegressor建立基线,结果得到3个不同的分数: .531687号普通订单 .535309表示相反的顺序 554458号普通订单 显然ExtraTreesRegressor不是一个很好的例子,所以我尝试了线性回归,但不管列的顺序是什么,它都给出了.295898 我想知道的是,是否有受列顺序影响的估值器,如果没有,你能给我指出某种方向,或者提供一些代码,我可以使用它来确保列的顺序

我想知道Sci kit Learn提供的任何估计器是否受到数据帧中列的顺序的影响。我尝试使用ExtraTreesRegressor建立基线,结果得到3个不同的分数:

  • .531687号普通订单
  • .535309表示相反的顺序
  • 554458号普通订单
显然ExtraTreesRegressor不是一个很好的例子,所以我尝试了线性回归,但不管列的顺序是什么,它都给出了.295898


我想知道的是,是否有受列顺序影响的估值器,如果没有,你能给我指出某种方向,或者提供一些代码,我可以使用它来确保列的顺序确实重要?

任何在构建模型时在选择特征时涉及一些随机性的算法都会受到其顺序的影响;顺便说一句,scikit learn中出现的唯一案例是额外的树和随机森林(在它们作为分类器或回归器的化身中),它们确实有一些共同点

这种行为的罪魁祸首是参数
max_features
;从(中的描述也相同):

最大功能:{“自动”、“sqrt”、“log2”}int或float,default=“自动”

寻找最佳分割

时要考虑的特征数量 我不知道还有其他算法涉及此类随机特征选择(线性模型、决策树、支持向量机、朴素贝叶斯、神经网络和梯度增强树不涉及),但如果您在文档中看到了足够相似的内容,您可以打赌相应的算法也会受到特征顺序的影响


请记住,这种理论上不应该发生的微小差异,在随机性从太多角度进入的模型中是可以预期的。对于R中带有RF的类似情况(当询问
重要性=真时,结果略有不同
),请检查我在

中的回答,理论上,功能顺序不会对模型的性能产生太大影响。ExtraTreesRegressor在每次拆分时选择功能时具有一定程度的随机性,因此,即使不洗牌功能顺序,您也会在不同的运行中看到不同的结果(尽管不显著)。