Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/html/76.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Attributes 标称属性的虚拟编码.使用K个虚拟的效果,属性选择的效果_Attributes_Statistics_Data Mining_Weka_Regression - Fatal编程技术网

Attributes 标称属性的虚拟编码.使用K个虚拟的效果,属性选择的效果

Attributes 标称属性的虚拟编码.使用K个虚拟的效果,属性选择的效果,attributes,statistics,data-mining,weka,regression,Attributes,Statistics,Data Mining,Weka,Regression,总结我对主题的理解,“虚拟编码”通常被理解为用K个可能值作为K-1二进制虚拟来编码一个标称属性。据我所知,K值的使用会导致冗余,并会产生负面影响,例如对逻辑回归产生负面影响。到目前为止,一切都很清楚 然而,我不清楚两个问题: 1) 考虑到上述问题,我对WEKA中的“逻辑”分类器实际上使用K假人感到困惑(见图)。为什么会是这样 2)当我考虑属性选择时就会出现问题。如果忽略的属性值隐式包含在所有虚拟对象均为零的情况下(如果所有虚拟对象实际用于模型),则如果缺少一个虚拟对象(在属性选择中未选择),则

总结我对主题的理解,“虚拟编码”通常被理解为用K个可能值作为K-1二进制虚拟来编码一个标称属性。据我所知,K值的使用会导致冗余,并会产生负面影响,例如对逻辑回归产生负面影响。到目前为止,一切都很清楚

然而,我不清楚两个问题:

1) 考虑到上述问题,我对WEKA中的“逻辑”分类器实际上使用K假人感到困惑(见图)。为什么会是这样

2)当我考虑属性选择时就会出现问题。如果忽略的属性值隐式包含在所有虚拟对象均为零的情况下(如果所有虚拟对象实际用于模型),则如果缺少一个虚拟对象(在属性选择中未选择),则不再明确包含该属性值。通过我上传的草图,这个问题很容易理解。如何处理这个问题

其次

图像

WEKA输出:逻辑算法在UCI数据集German Credit上运行,其中第一个属性的可能值为A11、A12、A13、A14。所有这些都包含在logistic回归模型中


决策树示例:在属性选择后,在具有虚拟编码实例的数据集上运行决策树时,显示问题的草图

当您使用k个假人而不是k-1个假人时,输出通常更易于阅读、解释和使用。我想这就是为什么每个人都使用k型假人的原因。 但是,是的,当k值总和为1时,存在可能导致问题的相关性。但是数据集中的相关性是常见的,你永远不会完全摆脱它们

我认为特征选择和虚拟编码是不合适的。它等于从属性中删除一些值。你为什么坚持要做特征选择

<>你真的应该使用加权,或者考虑更高级的算法来处理这些数据。事实上,伪变量可能会引起同样多的麻烦,因为它们是二进制的,而且很多算法(例如k-means)对二进制变量没有多大意义

对于决策树:不执行,在输出属性上选择特征。。。 另外,由于决策树已经选择了功能,所以无论如何做这些都没有意义。。。让决策树决定使用哪个属性进行拆分。这样,它也可以学习依赖关系