如何在rpart中应用权重?

如何在rpart中应用权重?,r,rpart,R,Rpart,我有来自Kaggle实践竞赛的房屋数据,我正在使用rpart训练一个简单的第一模型来预测销售价格 模型未正确识别销售条件异常或预付款的销售。因此,我想增加这个变量的重要性,这个变量在模型中显然被忽略了 我假设这是通过使用“权重”参数来实现的,但是这个参数是如何使用的呢?如何确定哪些变量的权重更高?来自: 权重 可选的箱子重量 成本 非负成本向量,模型中每个变量对应一个。 所有变量的默认值均为1。这些是要应用的缩放 在考虑拆分时,对变量拆分的改进 在决定选择哪种分割时,要除以成本 权重用于行(例如

我有来自Kaggle实践竞赛的房屋数据,我正在使用rpart训练一个简单的第一模型来预测销售价格

模型未正确识别销售条件异常或预付款的销售。因此,我想增加这个变量的重要性,这个变量在模型中显然被忽略了

我假设这是通过使用“权重”参数来实现的,但是这个参数是如何使用的呢?如何确定哪些变量的权重更高?

来自:

权重

可选的箱子重量

成本

非负成本向量,模型中每个变量对应一个。 所有变量的默认值均为1。这些是要应用的缩放 在考虑拆分时,对变量拆分的改进 在决定选择哪种分割时,要除以成本

权重用于行(例如,为较小的类赋予更高的权重),成本用于列

应用权重参数的示例用法 (不一定是定义权重的最佳方式):

positivewight=1.0/(nrow(子集(训练,Y==TRUE))/nrow(训练))
负视图=1.0/(nrow(子集(训练,Y!=TRUE))/nrow(训练))

模型权重
rpart
中的权重为案例权重。它们衡量的是观察结果,而不是特征。那么如何为特征增加权重呢?复制观察结果?我不知道有哪种算法能提供加权特征选择。尽管我确信他们存在。我将获取您的完整决策树的输出,并将其作为第二个具有销售条件功能的决策树的输入。这将构建第二个只包含两个特性的树。如果它没有出现,那么它可能会出现在另一个功能中。我会尝试使用它,谢谢。
positiveWeight = 1.0 / (nrow(subset(training, Y == TRUE)) / nrow(training))
negativeWeight = 1.0 / (nrow(subset(training, Y != TRUE)) / nrow(training))

modelWeights <- ifelse(training$Y== TRUE, positiveWeight, negativeWeight)

dtreeModel <- rpart(predFormula, training, weights = modelWeights)