Attributes 标称属性的虚拟编码.使用K个虚拟的效果,属性选择的效果
总结我对主题的理解,“虚拟编码”通常被理解为用K个可能值作为K-1二进制虚拟来编码一个标称属性。据我所知,K值的使用会导致冗余,并会产生负面影响,例如对逻辑回归产生负面影响。到目前为止,一切都很清楚 然而,我不清楚两个问题: 1) 考虑到上述问题,我对WEKA中的“逻辑”分类器实际上使用K假人感到困惑(见图)。为什么会是这样Attributes 标称属性的虚拟编码.使用K个虚拟的效果,属性选择的效果,attributes,statistics,data-mining,weka,regression,Attributes,Statistics,Data Mining,Weka,Regression,总结我对主题的理解,“虚拟编码”通常被理解为用K个可能值作为K-1二进制虚拟来编码一个标称属性。据我所知,K值的使用会导致冗余,并会产生负面影响,例如对逻辑回归产生负面影响。到目前为止,一切都很清楚 然而,我不清楚两个问题: 1) 考虑到上述问题,我对WEKA中的“逻辑”分类器实际上使用K假人感到困惑(见图)。为什么会是这样 2)当我考虑属性选择时就会出现问题。如果忽略的属性值隐式包含在所有虚拟对象均为零的情况下(如果所有虚拟对象实际用于模型),则如果缺少一个虚拟对象(在属性选择中未选择),则
2)当我考虑属性选择时就会出现问题。如果忽略的属性值隐式包含在所有虚拟对象均为零的情况下(如果所有虚拟对象实际用于模型),则如果缺少一个虚拟对象(在属性选择中未选择),则不再明确包含该属性值。通过我上传的草图,这个问题很容易理解。如何处理这个问题
其次 图像 WEKA输出:逻辑算法在UCI数据集German Credit上运行,其中第一个属性的可能值为A11、A12、A13、A14。所有这些都包含在logistic回归模型中决策树示例:在属性选择后,在具有虚拟编码实例的数据集上运行决策树时,显示问题的草图 当您使用k个假人而不是k-1个假人时,输出通常更易于阅读、解释和使用。我想这就是为什么每个人都使用k型假人的原因。 但是,是的,当k值总和为1时,存在可能导致问题的相关性。但是数据集中的相关性是常见的,你永远不会完全摆脱它们 我认为特征选择和虚拟编码是不合适的。它等于从属性中删除一些值。你为什么坚持要做特征选择 <>你真的应该使用加权,或者考虑更高级的算法来处理这些数据。事实上,伪变量可能会引起同样多的麻烦,因为它们是二进制的,而且很多算法(例如k-means)对二进制变量没有多大意义 对于决策树:不执行,在输出属性上选择特征。。。 另外,由于决策树已经选择了功能,所以无论如何做这些都没有意义。。。让决策树决定使用哪个属性进行拆分。这样,它也可以学习依赖关系