在rpart r中接收非常小的树
我有大约300000条记录,我正在尝试拟合二进制分类解释变量“request” 我使用了以下代码:在rpart r中接收非常小的树,r,rpart,R,Rpart,我有大约300000条记录,我正在尝试拟合二进制分类解释变量“request” 我使用了以下代码: require(rpart) tree <- rpart(data=import, method="class", formula=Requested ~ p0 + p_r + adow + tk + loy_pres + Sum_Offer_Price + Min_Offer_Price + Avg_Offer_Price + Avg_tk_m_p0
require(rpart)
tree <-
rpart(data=import, method="class",
formula=Requested ~
p0 + p_r + adow + tk + loy_pres + Sum_Offer_Price
+ Min_Offer_Price + Avg_Offer_Price + Avg_tk_m_p0
+ Min_tk_m_p0 + Avg_p_dis + Min_p_dis)
require(rpart)
树如注释中所述,拆分标准由cp
参数控制,该参数可直接传递到rpart
:
rpart( ..., cp = whatever)
cp:复杂性参数。任何不降低成本的拆分
未尝试通过“cp”的系数进行整体拟合。
例如,使用“方差分析”拆分,这意味着
每一步的总R平方必须增加“cp”。这个
此参数的主要作用是通过以下方式节省计算时间:
剪掉明显不值得的裂痕。
本质上,用户通知程序
不能通过“cp”改善贴合度的,可能会通过
交叉验证,因此程序不需要进行
它
cp
的默认值为0.01。您可以不断降低cp,直到得到一棵复杂度符合您要求的树(当然,这并没有说明该树将如何推广到新数据;理想情况下,您可以通过交叉验证来调整cp
值)
您还可以试验minbucket
的值以及将在?rpart.control
中看到的其他参数。请阅读?rpart.control
中控件
参数的文档。