R文本挖掘与随机森林_R_Text Mining

R文本挖掘与随机森林

R文本挖掘与随机森林,r,text-mining,R,Text Mining,我正在处理一个数据集，该数据集包含一堆原始文本，我正在对这些文本进行矢量化，并在矩阵中用于随机森林回归。我的问题是，如果每个单词都是稀疏矩阵，我应该将其视为一个因子还是一个数值？哪一个加快了计算时间？我的理解是，R矩阵将因子强制转换为字符，因此最好使用数值我对RandomForest不太熟悉——我对它的功能有一个大致的了解，但我不确定它的R实现的细节。如果您需要为其提供一个设计矩阵（例如，手动实现ANOVAs或GLMs时它们的工作方式），您可以尝试使用model.matrix函数

我正在处理一个数据集，该数据集包含一堆原始文本，我正在对这些文本进行矢量化，并在矩阵中用于随机森林回归。我的问题是，如果每个单词都是稀疏矩阵，我应该将其视为一个因子还是一个数值？哪一个加快了计算时间？

我的理解是，R矩阵将因子强制转换为字符，因此最好使用数值

我对RandomForest不太熟悉——我对它的功能有一个大致的了解，但我不确定它的R实现的细节。如果您需要为其提供一个设计矩阵（例如，手动实现ANOVAs或GLMs时它们的工作方式），您可以尝试使用

model.matrix

函数