R 特征选择是否可能保留相关特征?

R 特征选择是否可能保留相关特征?,r,machine-learning,correlation,feature-extraction,feature-selection,R,Machine Learning,Correlation,Feature Extraction,Feature Selection,我的目标是找到区分两个类的最重要的特性。使用众多特征选择方法中的一种来实现这一点是有意义的 但我的问题是:我有很多相关的特征 特征选择的目标通常是消除这些冗余特征。但是这些特性有语义意义,我希望避免丢失这些信息 因此,如果一组相关特征对类变量有很强的预测能力,我希望它们都被认为是重要的。(额外的问题:如果我在模型中包含十个相关特征,它们的最终权重将仅为其“实际”重要性的十分之一。) 你能想到一种特征选择方法,即使在相关特征组中出现,也能找到重要特征吗?你能想到一种特征选择方法,即使在相关特征组中

我的目标是找到区分两个类的最重要的特性。使用众多特征选择方法中的一种来实现这一点是有意义的

但我的问题是:我有很多相关的特征

特征选择的目标通常是消除这些冗余特征。但是这些特性有语义意义,我希望避免丢失这些信息

因此,如果一组相关特征对类变量有很强的预测能力,我希望它们都被认为是重要的。(额外的问题:如果我在模型中包含十个相关特征,它们的最终权重将仅为其“实际”重要性的十分之一。)

你能想到一种特征选择方法,即使在相关特征组中出现,也能找到重要特征吗?

你能想到一种特征选择方法,即使在相关特征组中出现,也能找到重要特征吗? 也许这个功能可以帮助你。我用它来寻找重要的特性

library(randomForest)
set.seed(4543)
data(mtcars)
mtcars.rf <- randomForest(mpg ~ ., data=mtcars, ntree=1000, keep.forest=FALSE,
                          importance=TRUE)
varImpPlot(mtcars.rf)
库(随机林)
种子集(4543)
数据(mtcars)
mtcars.rf您能想到一种功能选择方法,即使在相关功能组中出现重要功能,也能找到它们吗?
也许这个功能可以帮助你。我用它来寻找重要的特性

library(randomForest)
set.seed(4543)
data(mtcars)
mtcars.rf <- randomForest(mpg ~ ., data=mtcars, ntree=1000, keep.forest=FALSE,
                          importance=TRUE)
varImpPlot(mtcars.rf)
库(随机林)
种子集(4543)
数据(mtcars)

mtcars.rf我建议在之前消除高度相关的功能,因为它们是冗余的()。您可以确定哪些方差为零或接近零;有一些方法可以识别其他列的线性组合(因此,可以在不丢失任何信息的情况下安全地删除)。然后使用典型特征选择技术,根据剩余特征的预测能力对其进行排序

我建议在之前消除高度相关的功能,因为它们是冗余的()。您可以确定哪些方差为零或接近零;有一些方法可以识别其他列的线性组合(因此,可以在不丢失任何信息的情况下安全地删除)。然后使用典型特征选择技术,根据剩余特征的预测能力对其进行排序

使用Boruta算法可以找到所有重要的特征集。 该算法本质上是测量因随机改变特征的观察顺序而导致的MSE降低。因此,允许算法决定特征是否有助于模型的准确性。这与随机林中的变量重要性计算非常相似。
详细信息可以在本文中找到:

使用Boruta算法可以找到所有重要的特征集。 该算法本质上是测量因随机改变特征的观察顺序而导致的MSE降低。因此,允许算法决定特征是否有助于模型的准确性。这与随机林中的变量重要性计算非常相似。
详细信息可在本文中找到:

如果特征相关,为什么不以某种方式将它们结合起来,即进行一些特色工程?谢谢Drey。说得好!问题是,我的特性并不是完全相关的——既不相互关联,也不与类变量关联。这使得很难以有意义的方式组合这些功能。我尝试根据频繁项集组合我的二进制功能,但结果是非常混乱的功能组合…1。如果您拥有完全相关的特征,那么这些特征在多个方面都会对您的数据造成不利影响。2.有不止一种方法可以生成特征。3.如果您只有很少的特征,您可以应用PCA,将k作为您拥有的特征数。这将变换数据以保持方差和协方差。此外,它将允许您(无损地)将PCA数据转换回原始特征空间进行解释。(但这不是特征工程)。4.对数据使用双射变换。。。5.有很多-你需要分享你的数据的细节。如果功能相关,为什么不以某种方式将它们结合起来,比如做一些特色工程?谢谢你,德雷。说得好!问题是,我的特性并不是完全相关的——既不相互关联,也不与类变量关联。这使得很难以有意义的方式组合这些功能。我尝试根据频繁项集组合我的二进制功能,但结果是非常混乱的功能组合…1。如果您拥有完全相关的特征,那么这些特征在多个方面都会对您的数据造成不利影响。2.有不止一种方法可以生成特征。3.如果您只有很少的特征,您可以应用PCA,将k作为您拥有的特征数。这将变换数据以保持方差和协方差。此外,它将允许您(无损地)将PCA数据转换回原始特征空间进行解释。(但这不是特征工程)。4.对数据使用双射变换。。。5.有很多-你需要分享你的数据的细节。