R文本挖掘与随机森林

R文本挖掘与随机森林,r,text-mining,R,Text Mining,我正在处理一个数据集,该数据集包含一堆原始文本,我正在对这些文本进行矢量化,并在矩阵中用于随机森林回归。我的问题是,如果每个单词都是稀疏矩阵,我应该将其视为一个因子还是一个数值?哪一个加快了计算时间?我的理解是,R矩阵将因子强制转换为字符,因此最好使用数值 我对RandomForest不太熟悉——我对它的功能有一个大致的了解,但我不确定它的R实现的细节。如果您需要为其提供一个设计矩阵(例如,手动实现ANOVAs或GLMs时它们的工作方式),您可以尝试使用model.matrix函数

我正在处理一个数据集,该数据集包含一堆原始文本,我正在对这些文本进行矢量化,并在矩阵中用于随机森林回归。我的问题是,如果每个单词都是稀疏矩阵,我应该将其视为一个因子还是一个数值?哪一个加快了计算时间?

我的理解是,R矩阵将因子强制转换为字符,因此最好使用数值

我对RandomForest不太熟悉——我对它的功能有一个大致的了解,但我不确定它的R实现的细节。如果您需要为其提供一个设计矩阵(例如,手动实现ANOVAs或GLMs时它们的工作方式),您可以尝试使用
model.matrix
函数