R 随机森林似乎处理的因子不超过32类。在训练我的模型时，我应该如何将这些因素包括在内？_R_Machine Learning_Svm_Random Forest

R 随机森林似乎处理的因子不超过32类。在训练我的模型时，我应该如何将这些因素包括在内？

r machine-learning

R 随机森林似乎处理的因子不超过32类。在训练我的模型时，我应该如何将这些因素包括在内？,r,machine-learning,svm,random-forest,R,Machine Learning,Svm,Random Forest,我试图根据我的训练数据训练随机森林，这些数据具有“名称”、“城市”等预测因子。这两个预测因子有32个以上的类别。我该怎么做才能包含它们甚至其他一些算法似乎也无法处理更大的类别，如SVM或gbm 出于速度原因，通常建议避免使用公式界面来随机选择森林。相反，在公式中使用model.matrix，并将结果反馈给randomforest。然后你可以有你想要的任意多的类别，因为它们是二分法的（即，模拟出来或变成二进制变量）正如@joran所指出的，您可能还需要更多地思考您的问题。（1）32个二进制变量

我试图根据我的训练数据训练随机森林，这些数据具有“名称”、“城市”等预测因子。这两个预测因子有32个以上的类别。我该怎么做才能包含它们

甚至其他一些算法似乎也无法处理更大的类别，如SVM或gbm

出于速度原因，通常建议避免使用公式界面来随机选择森林。相反，在公式中使用

model.matrix

，并将结果反馈给randomforest。然后你可以有你想要的任意多的类别，因为它们是二分法的（即，模拟出来或变成二进制变量）

正如@joran所指出的，您可能还需要更多地思考您的问题。

（1）32个二进制变量，或（2）将变量向下折叠到更少的类别。在这种情况下，限制是技术上的，但类别数量巨大的变量在统计上可能会有问题，因为这通常是一个迹象，表明在数据选择和准备过程中很少考虑。或者，不要使用这些变量，而是使用你收集的另一个。@joran如何使用美国所有50个州，例如a“这表明很少有人考虑”数据的选择？你如何对这些变量进行分类/分组？@Gaffi 50状态在某些情况下可能是合理的，这取决于模型。但这是你的例子，不是我的，也不是OP的，他只提到名称和城市（在我看来，这意味着超过50个）.一般来说，由于样本量和可估计性问题，类别非常多的变量往往信息量不大。但每件事都有例外。@joran我想我的观点是，我与OP有相同的问题，但我不确定如何处理所有50个州。你还可以如何将这些预测值组合在一起？Spl它下降到25/25，并运行两个不同的分析？这个答案救了我的命：）很高兴帮助：-）