Python 回归模型中虚拟变量的组合效应_Python_Sas_Regression_Random Forest_Dummy Variable

Python 回归模型中虚拟变量的组合效应

python sas

Python 回归模型中虚拟变量的组合效应,python,sas,regression,random-forest,dummy-variable,Python,Sas,Regression,Random Forest,Dummy Variable,我正在使用Python Sklearn构建一个包含大约300个特性的回归模型。其中一个功能有100多个类别，我最终为此功能设置了约100个虚拟列。现在每个虚拟列都有自己的系数，或者功能排名分数（如果使用随机林或xgb），这是我不喜欢的。然而，当我在SAS JMP中创建同一个模型时，它为具有100个类别的功能提供了一个单一的功能评分-它显然会自动处理类别。有人能告诉我SAS JMP是如何将100个虚拟变量的系数/特征重要性组合成一个度量的吗。我不知道SAS JMP是如何做到的，但我认为它是通过不使

我正在使用Python Sklearn构建一个包含大约300个特性的回归模型。其中一个功能有100多个类别，我最终为此功能设置了约100个虚拟列。现在每个虚拟列都有自己的系数，或者功能排名分数（如果使用随机林或xgb），这是我不喜欢的。然而，当我在SAS JMP中创建同一个模型时，它为具有100个类别的功能提供了一个单一的功能评分-它显然会自动处理类别。有人能告诉我SAS JMP是如何将100个虚拟变量的系数/特征重要性组合成一个度量的吗。我不知道SAS JMP是如何做到的，但我认为它是通过不使用伪变量来实现的。基于树的模型实际上本机支持分类数据，只是sklearn（）没有实现。此外，至少在某些情况下，引入虚拟变量会降低模型的准确性，如图所示

您可以考虑使用另一个软件包，例如博客文章（H2O）使用的软件包。

您可以使用谷歌SAS统计手册/用户指南。查看那个里支持类语句的任何主要回归过程。在类下面，它详细说明了引用。。。选项它们都详细说明了设计矩阵是如何形成的。您输入100个假人的方式必须非常明显，足以触发JMP回滚到一个临时类变量，该变量重新设计为一个单一变量。如果您想知道JMP是如何被触发进行回滚的，请访问JMP网站并打开技术支持跟踪。但我相信这是事实