R 特征选择是否可能保留相关特征？_R_Machine Learning_Correlation_Feature Extraction_Feature Selection

R 特征选择是否可能保留相关特征？

r machine-learning

R 特征选择是否可能保留相关特征？,r,machine-learning,correlation,feature-extraction,feature-selection,R,Machine Learning,Correlation,Feature Extraction,Feature Selection,我的目标是找到区分两个类的最重要的特性。使用众多特征选择方法中的一种来实现这一点是有意义的但我的问题是：我有很多相关的特征特征选择的目标通常是消除这些冗余特征。但是这些特性有语义意义，我希望避免丢失这些信息因此，如果一组相关特征对类变量有很强的预测能力，我希望它们都被认为是重要的。（额外的问题：如果我在模型中包含十个相关特征，它们的最终权重将仅为其“实际”重要性的十分之一。）你能想到一种特征选择方法，即使在相关特征组中出现，也能找到重要特征吗？你能想到一种特征选择方法，即使在相关特征组中

我的目标是找到区分两个类的最重要的特性。使用众多特征选择方法中的一种来实现这一点是有意义的

但我的问题是：我有很多相关的特征

特征选择的目标通常是消除这些冗余特征。但是这些特性有语义意义，我希望避免丢失这些信息

因此，如果一组相关特征对类变量有很强的预测能力，我希望它们都被认为是重要的。（额外的问题：如果我在模型中包含十个相关特征，它们的最终权重将仅为其“实际”重要性的十分之一。）

你能想到一种特征选择方法，即使在相关特征组中出现，也能找到重要特征吗？

你能想到一种特征选择方法，即使在相关特征组中出现，也能找到重要特征吗？也许这个功能可以帮助你。我用它来寻找重要的特性

library(randomForest)
set.seed(4543)
data(mtcars)
mtcars.rf <- randomForest(mpg ~ ., data=mtcars, ntree=1000, keep.forest=FALSE,
                          importance=TRUE)
varImpPlot(mtcars.rf)

库（随机林）
种子集（4543）
数据（mtcars）
mtcars.rf您能想到一种功能选择方法，即使在相关功能组中出现重要功能，也能找到它们吗？
也许这个功能可以帮助你。我用它来寻找重要的特性
library(randomForest)
set.seed(4543)
data(mtcars)
mtcars.rf <- randomForest(mpg ~ ., data=mtcars, ntree=1000, keep.forest=FALSE,
                          importance=TRUE)
varImpPlot(mtcars.rf)

库（随机林）
种子集（4543）
数据（mtcars）
mtcars.rf我建议在之前消除高度相关的功能，因为它们是冗余的（）。您可以确定哪些方差为零或接近零；有一些方法可以识别其他列的线性组合（因此，可以在不丢失任何信息的情况下安全地删除）。然后使用典型特征选择技术，根据剩余特征的预测能力对其进行排序
 我建议在之前消除高度相关的功能，因为它们是冗余的（）。您可以确定哪些方差为零或接近零；有一些方法可以识别其他列的线性组合（因此，可以在不丢失任何信息的情况下安全地删除）。然后使用典型特征选择技术，根据剩余特征的预测能力对其进行排序 使用Boruta算法可以找到所有重要的特征集。
该算法本质上是测量因随机改变特征的观察顺序而导致的MSE降低。因此，允许算法决定特征是否有助于模型的准确性。这与随机林中的变量重要性计算非常相似。
详细信息可以在本文中找到：使用Boruta算法可以找到所有重要的特征集。
该算法本质上是测量因随机改变特征的观察顺序而导致的MSE降低。因此，允许算法决定特征是否有助于模型的准确性。这与随机林中的变量重要性计算非常相似。
详细信息可在本文中找到：
如果特征相关，为什么不以某种方式将它们结合起来，即进行一些特色工程？谢谢Drey。说得好！问题是，我的特性并不是完全相关的——既不相互关联，也不与类变量关联。这使得很难以有意义的方式组合这些功能。我尝试根据频繁项集组合我的二进制功能，但结果是非常混乱的功能组合…1。如果您拥有完全相关的特征，那么这些特征在多个方面都会对您的数据造成不利影响。2.有不止一种方法可以生成特征。3.如果您只有很少的特征，您可以应用PCA，将k作为您拥有的特征数。这将变换数据以保持方差和协方差。此外，它将允许您（无损地）将PCA数据转换回原始特征空间进行解释。（但这不是特征工程）。4.对数据使用双射变换。。。5.有很多-你需要分享你的数据的细节。如果功能相关，为什么不以某种方式将它们结合起来，比如做一些特色工程？谢谢你，德雷。说得好！问题是，我的特性并不是完全相关的——既不相互关联，也不与类变量关联。这使得很难以有意义的方式组合这些功能。我尝试根据频繁项集组合我的二进制功能，但结果是非常混乱的功能组合…1。如果您拥有完全相关的特征，那么这些特征在多个方面都会对您的数据造成不利影响。2.有不止一种方法可以生成特征。3.如果您只有很少的特征，您可以应用PCA，将k作为您拥有的特征数。这将变换数据以保持方差和协方差。此外，它将允许您（无损地）将PCA数据转换回原始特征空间进行解释。（但这不是特征工程）。4.对数据使用双射变换。。。5.有很多-你需要分享你的数据的细节。