Python 如何在Scikit学习中适应连续批次?

Python 如何在Scikit学习中适应连续批次?,python,machine-learning,scikit-learn,bigdata,gradient-descent,Python,Machine Learning,Scikit Learn,Bigdata,Gradient Descent,我有一个大数据集(>1 TB),我希望使用它进行培训 由于数据的大小远远超出了我的RAM容量,我正在考虑将数据分割成块,然后依次“fit()”它们 我理解将“warm_start”属性设置为True会在拟合后保持权重()。但是,似乎我还需要增加每次连续调用fit()的估计器数量 在将估计器的数量增加一个之前,是否可以先拟合所有数据块 我的问题的最佳解决方案是什么,即拟合超大数据集?您可能希望尝试SGD估计器的部分拟合方法。它不是GBM,但它工作得非常好,对于您拥有的数据大小,通过线性模型和适当的

我有一个大数据集(>1 TB),我希望使用它进行培训

由于数据的大小远远超出了我的RAM容量,我正在考虑将数据分割成块,然后依次“fit()”它们

我理解将“warm_start”属性设置为True会在拟合后保持权重()。但是,似乎我还需要增加每次连续调用fit()的估计器数量

在将估计器的数量增加一个之前,是否可以先拟合所有数据块


我的问题的最佳解决方案是什么,即拟合超大数据集?

您可能希望尝试SGD估计器的
部分拟合方法。它不是GBM,但它工作得非常好,对于您拥有的数据大小,通过线性模型和适当的交互,您可能会得到很好的结果。

好的。我应该立即一个接一个地调用partial_fit()语句吗?提升不总是能带来更好的结果吗?为什么你认为线性模型适合我的情况?它们具体是什么样的适当互动?如果我坚持梯度推进,你认为在我提供下一个数据块时,如果我增加一个估计器阶段的数量有关系吗?是的,总体上推进可能会得到更好的结果。但是你说你有很多数据,在这种情况下,如果你处理你的特性,一个有交互作用的线性模型可能会得到很好的性能。我个人在一个非常大的数据集上使用了部分拟合方法,并且能够得到与使用H2O的gbms相当的结果。只有估计器能够做到这一点。