Attributes 标称属性的虚拟编码.使用K个虚拟的效果，属性选择的效果_Attributes_Statistics_Data Mining_Weka_Regression

Attributes 标称属性的虚拟编码.使用K个虚拟的效果，属性选择的效果

statistics

Attributes 标称属性的虚拟编码.使用K个虚拟的效果，属性选择的效果,attributes,statistics,data-mining,weka,regression,Attributes,Statistics,Data Mining,Weka,Regression,总结我对主题的理解，“虚拟编码”通常被理解为用K个可能值作为K-1二进制虚拟来编码一个标称属性。据我所知，K值的使用会导致冗余，并会产生负面影响，例如对逻辑回归产生负面影响。到目前为止，一切都很清楚然而，我不清楚两个问题： 1）考虑到上述问题，我对WEKA中的“逻辑”分类器实际上使用K假人感到困惑（见图）。为什么会是这样 2）当我考虑属性选择时就会出现问题。如果忽略的属性值隐式包含在所有虚拟对象均为零的情况下（如果所有虚拟对象实际用于模型），则如果缺少一个虚拟对象（在属性选择中未选择），则

总结我对主题的理解，“虚拟编码”通常被理解为用K个可能值作为K-1二进制虚拟来编码一个标称属性。据我所知，K值的使用会导致冗余，并会产生负面影响，例如对逻辑回归产生负面影响。到目前为止，一切都很清楚

然而，我不清楚两个问题：

1）考虑到上述问题，我对WEKA中的“逻辑”分类器实际上使用K假人感到困惑（见图）。为什么会是这样

2）当我考虑属性选择时就会出现问题。如果忽略的属性值隐式包含在所有虚拟对象均为零的情况下（如果所有虚拟对象实际用于模型），则如果缺少一个虚拟对象（在属性选择中未选择），则不再明确包含该属性值。通过我上传的草图，这个问题很容易理解。如何处理这个问题

其次

图像

WEKA输出：逻辑算法在UCI数据集German Credit上运行，其中第一个属性的可能值为A11、A12、A13、A14。所有这些都包含在logistic回归模型中

决策树示例：在属性选择后，在具有虚拟编码实例的数据集上运行决策树时，显示问题的草图

当您使用k个假人而不是k-1个假人时，输出通常更易于阅读、解释和使用。我想这就是为什么每个人都使用k型假人的原因。但是，是的，当k值总和为1时，存在可能导致问题的相关性。但是数据集中的相关性是常见的，你永远不会完全摆脱它们

我认为特征选择和虚拟编码是不合适的。它等于从属性中删除一些值。你为什么坚持要做特征选择

<>你真的应该使用加权，或者考虑更高级的算法来处理这些数据。事实上，伪变量可能会引起同样多的麻烦，因为它们是二进制的，而且很多算法（例如k-means）对二进制变量没有多大意义
对于决策树：不执行，在输出属性上选择特征。。。另外，由于决策树已经选择了功能，所以无论如何做这些都没有意义。。。让决策树决定使用哪个属性进行拆分。这样，它也可以学习依赖关系