Python 如何在Scikit学习中适应连续批次？_Python_Machine Learning_Scikit Learn_Bigdata_Gradient Descent

Python 如何在Scikit学习中适应连续批次？

python machine-learning scikit-learn

Python 如何在Scikit学习中适应连续批次？,python,machine-learning,scikit-learn,bigdata,gradient-descent,Python,Machine Learning,Scikit Learn,Bigdata,Gradient Descent,我有一个大数据集（>1 TB），我希望使用它进行培训由于数据的大小远远超出了我的RAM容量，我正在考虑将数据分割成块，然后依次“fit（）”它们我理解将“warm_start”属性设置为True会在拟合后保持权重（）。但是，似乎我还需要增加每次连续调用fit（）的估计器数量在将估计器的数量增加一个之前，是否可以先拟合所有数据块我的问题的最佳解决方案是什么，即拟合超大数据集？您可能希望尝试SGD估计器的部分拟合方法。它不是GBM，但它工作得非常好，对于您拥有的数据大小，通过线性模型和适当的

我有一个大数据集（>1 TB），我希望使用它进行培训

由于数据的大小远远超出了我的RAM容量，我正在考虑将数据分割成块，然后依次“fit（）”它们

我理解将“warm_start”属性设置为True会在拟合后保持权重（）。但是，似乎我还需要增加每次连续调用fit（）的估计器数量

在将估计器的数量增加一个之前，是否可以先拟合所有数据块

我的问题的最佳解决方案是什么，即拟合超大数据集？

您可能希望尝试SGD估计器的

部分拟合方法。它不是GBM，但它工作得非常好，对于您拥有的数据大小，通过线性模型和适当的交互，您可能会得到很好的结果。
好的。我应该立即一个接一个地调用partial_fit（）语句吗？提升不总是能带来更好的结果吗？为什么你认为线性模型适合我的情况？它们具体是什么样的适当互动？如果我坚持梯度推进，你认为在我提供下一个数据块时，如果我增加一个估计器阶段的数量有关系吗？是的，总体上推进可能会得到更好的结果。但是你说你有很多数据，在这种情况下，如果你处理你的特性，一个有交互作用的线性模型可能会得到很好的性能。我个人在一个非常大的数据集上使用了部分拟合方法，并且能够得到与使用H2O的gbms相当的结果。只有估计器能够做到这一点。