R中大型(wrt预测)数据集中连续因变量的模型

R中大型(wrt预测)数据集中连续因变量的模型,r,bigdata,linear-regression,prediction,R,Bigdata,Linear Regression,Prediction,我有一个包含4000个变量和10000行的数据集。我想用lm来预测,但建立一个模型要花很长时间。我不想使用rpart,因为它为类似的观察提供了固定的值。我希望在结果中有更多的可变性和更低的mse。除了lm之外,我还有其他模型可以使用吗?或者有一种更快的方法来构建lm吗?您预测的是什么?每行一个值?是的,使用4000个预测值,每行一个值相对于您的观察数量来说不会太多,而且它们几乎肯定是许多相关的预测值。您需要使用正则化或稀疏回归的方法,如LASSO,这可以使用glmnet包完成。它仍然需要一段时间

我有一个包含4000个变量和10000行的数据集。我想用lm来预测,但建立一个模型要花很长时间。我不想使用rpart,因为它为类似的观察提供了固定的值。我希望在结果中有更多的可变性和更低的mse。除了lm之外,我还有其他模型可以使用吗?或者有一种更快的方法来构建lm吗?

您预测的是什么?每行一个值?是的,使用4000个预测值,每行一个值相对于您的观察数量来说不会太多,而且它们几乎肯定是许多相关的预测值。您需要使用正则化或稀疏回归的方法,如LASSO,这可以使用glmnet包完成。它仍然需要一段时间来运行,但没有办法。在任何情况下,这个问题都会更好,但确实需要更多关于变量和观察值代表什么的细节。Thanx Dave!非常感谢。