R随机林未定义列问题
我正在进行一个文本挖掘过程,并使用随机森林将文本分类。 我在处理文本后使用插入符号包。 我将数据拆分为训练和测试, 以下是相同后的R代码:R随机林未定义列问题,r,random-forest,text-mining,R,Random Forest,Text Mining,我正在进行一个文本挖掘过程,并使用随机森林将文本分类。 我在处理文本后使用插入符号包。 我将数据拆分为训练和测试, 以下是相同后的R代码: traindata <- tdm_df[s,] # training set testdata <- tdm_df[-s,] # testing set rf.tfidf <- train(traindata[,c(1:69)], train[,70], method = "rf", trContro
traindata <- tdm_df[s,] # training set
testdata <- tdm_df[-s,] # testing set
rf.tfidf <- train(traindata[,c(1:69)], train[,70],
method = "rf", trControl = ctrl) # train random forest
rf.tfidf
编辑1:更正后的下一个错误:
序列[1:5]中的错误:“closure”类型的对象不可再附加
我看到术语_sparse给了我一个问题,可能是文本挖掘部分,我如何改进我的结果
不知道问题是什么。
请帮帮我 将
列车[,70]
替换为列车数据[,70]
:
rf.tfidf <- train(traindata[,c(1:69)], traindata[,70],
method = "rf", trControl = ctrl)
rf.tfidf如果dim(train)
的结果是什么?[1]693 5,我现在看到了问题,但我不明白为什么,我至少应该得到50个条款。你能帮我吗?我在问题编辑中加了完整的代码@可能是因为这样一句话:tdm\u首先,不要给对象起与函数相同的名字。因此,您的培训数据没有train
。第二,方法rpart
不是选择随机林,而是递归分区。您需要方法rf
。检查您的培训数据是否实际有57列。我们无法访问notes数据,请使用tm附带的原始数据集制作一个完全可复制的示例。@phiver,注意,我将进行必要的更改。我在Question中添加了前20行作为dput输出,它可以帮助您理解我的数据。请帮帮我。
rf.tfidf <- train(traindata[,c(1:69)], traindata[,70],
method = "rf", trControl = ctrl)