R 随机森林似乎处理的因子不超过32类。在训练我的模型时,我应该如何将这些因素包括在内?

R 随机森林似乎处理的因子不超过32类。在训练我的模型时,我应该如何将这些因素包括在内?,r,machine-learning,svm,random-forest,R,Machine Learning,Svm,Random Forest,我试图根据我的训练数据训练随机森林,这些数据具有“名称”、“城市”等预测因子。这两个预测因子有32个以上的类别。我该怎么做才能包含它们 甚至其他一些算法似乎也无法处理更大的类别,如SVM或gbm 出于速度原因,通常建议避免使用公式界面来随机选择森林。相反,在公式中使用model.matrix,并将结果反馈给randomforest。然后你可以有你想要的任意多的类别,因为它们是二分法的(即,模拟出来或变成二进制变量) 正如@joran所指出的,您可能还需要更多地思考您的问题。(1)32个二进制变量

我试图根据我的训练数据训练随机森林,这些数据具有“名称”、“城市”等预测因子。这两个预测因子有32个以上的类别。我该怎么做才能包含它们


甚至其他一些算法似乎也无法处理更大的类别,如SVM或gbm

出于速度原因,通常建议避免使用公式界面来随机选择森林。相反,在公式中使用
model.matrix
,并将结果反馈给randomforest。然后你可以有你想要的任意多的类别,因为它们是二分法的(即,模拟出来或变成二进制变量)


正如@joran所指出的,您可能还需要更多地思考您的问题。

(1)32个二进制变量,或(2)将变量向下折叠到更少的类别。在这种情况下,限制是技术上的,但类别数量巨大的变量在统计上可能会有问题,因为这通常是一个迹象,表明在数据选择和准备过程中很少考虑。或者,不要使用这些变量,而是使用你收集的另一个。@joran如何使用美国所有50个州,例如a“这表明很少有人考虑”数据的选择?你如何对这些变量进行分类/分组?@Gaffi 50状态在某些情况下可能是合理的,这取决于模型。但这是你的例子,不是我的,也不是OP的,他只提到名称和城市(在我看来,这意味着超过50个).一般来说,由于样本量和可估计性问题,类别非常多的变量往往信息量不大。但每件事都有例外。@joran我想我的观点是,我与OP有相同的问题,但我不确定如何处理所有50个州。你还可以如何将这些预测值组合在一起?Spl它下降到25/25,并运行两个不同的分析?这个答案救了我的命:)很高兴帮助:-)