如何在rpart中应用权重？_R_Rpart

如何在rpart中应用权重？

如何在rpart中应用权重？,r,rpart,R,Rpart,我有来自Kaggle实践竞赛的房屋数据，我正在使用rpart训练一个简单的第一模型来预测销售价格模型未正确识别销售条件异常或预付款的销售。因此，我想增加这个变量的重要性，这个变量在模型中显然被忽略了我假设这是通过使用“权重”参数来实现的，但是这个参数是如何使用的呢？如何确定哪些变量的权重更高？来自：权重可选的箱子重量成本非负成本向量，模型中每个变量对应一个。所有变量的默认值均为1。这些是要应用的缩放在考虑拆分时，对变量拆分的改进在决定选择哪种分割时，要除以成本权重用于行（例如

我有来自Kaggle实践竞赛的房屋数据，我正在使用rpart训练一个简单的第一模型来预测销售价格

模型未正确识别销售条件异常或预付款的销售。因此，我想增加这个变量的重要性，这个变量在模型中显然被忽略了

我假设这是通过使用“权重”参数来实现的，但是这个参数是如何使用的呢？如何确定哪些变量的权重更高？

来自：

权重

可选的箱子重量

成本

非负成本向量，模型中每个变量对应一个。所有变量的默认值均为1。这些是要应用的缩放在考虑拆分时，对变量拆分的改进在决定选择哪种分割时，要除以成本

权重用于行（例如，为较小的类赋予更高的权重），成本用于列

应用权重参数的示例用法（不一定是定义权重的最佳方式）：

positivewight=1.0/（nrow（子集（训练，Y==TRUE））/nrow（训练））
负视图=1.0/（nrow（子集（训练，Y！=TRUE））/nrow（训练））
模型权重rpart中的权重为案例权重。它们衡量的是观察结果，而不是特征。那么如何为特征增加权重呢？复制观察结果？我不知道有哪种算法能提供加权特征选择。尽管我确信他们存在。我将获取您的完整决策树的输出，并将其作为第二个具有销售条件功能的决策树的输入。这将构建第二个只包含两个特性的树。如果它没有出现，那么它可能会出现在另一个功能中。我会尝试使用它，谢谢。
positiveWeight = 1.0 / (nrow(subset(training, Y == TRUE)) / nrow(training))
negativeWeight = 1.0 / (nrow(subset(training, Y != TRUE)) / nrow(training))

modelWeights <- ifelse(training$Y== TRUE, positiveWeight, negativeWeight)

dtreeModel <- rpart(predFormula, training, weights = modelWeights)