Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/file/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 回归模型中虚拟变量的组合效应_Python_Sas_Regression_Random Forest_Dummy Variable - Fatal编程技术网

Python 回归模型中虚拟变量的组合效应

Python 回归模型中虚拟变量的组合效应,python,sas,regression,random-forest,dummy-variable,Python,Sas,Regression,Random Forest,Dummy Variable,我正在使用Python Sklearn构建一个包含大约300个特性的回归模型。其中一个功能有100多个类别,我最终为此功能设置了约100个虚拟列。现在每个虚拟列都有自己的系数,或者功能排名分数(如果使用随机林或xgb),这是我不喜欢的。然而,当我在SAS JMP中创建同一个模型时,它为具有100个类别的功能提供了一个单一的功能评分-它显然会自动处理类别。有人能告诉我SAS JMP是如何将100个虚拟变量的系数/特征重要性组合成一个度量的吗。我不知道SAS JMP是如何做到的,但我认为它是通过不使

我正在使用Python Sklearn构建一个包含大约300个特性的回归模型。其中一个功能有100多个类别,我最终为此功能设置了约100个虚拟列。现在每个虚拟列都有自己的系数,或者功能排名分数(如果使用随机林或xgb),这是我不喜欢的。然而,当我在SAS JMP中创建同一个模型时,它为具有100个类别的功能提供了一个单一的功能评分-它显然会自动处理类别。有人能告诉我SAS JMP是如何将100个虚拟变量的系数/特征重要性组合成一个度量的吗。我不知道SAS JMP是如何做到的,但我认为它是通过不使用伪变量来实现的。基于树的模型实际上本机支持分类数据,只是sklearn()没有实现。此外,至少在某些情况下,引入虚拟变量会降低模型的准确性,如图所示


您可以考虑使用另一个软件包,例如博客文章(H2O)使用的软件包。

您可以使用谷歌SAS统计手册/用户指南。查看那个里支持类语句的任何主要回归过程。在类下面,它详细说明了引用。。。选项它们都详细说明了设计矩阵是如何形成的。您输入100个假人的方式必须非常明显,足以触发JMP回滚到一个临时类变量,该变量重新设计为一个单一变量。如果您想知道JMP是如何被触发进行回滚的,请访问JMP网站并打开技术支持跟踪。但我相信这是事实