Python 为大数据部分训练逻辑回归模型_Python_Machine Learning_Nlp_Bigdata_Logistic Regression

Python 为大数据部分训练逻辑回归模型

python machine-learning nlp

Python 为大数据部分训练逻辑回归模型,python,machine-learning,nlp,bigdata,logistic-regression,Python,Machine Learning,Nlp,Bigdata,Logistic Regression,经过预处理后，我的数据集由160万行和17000列组成。我想对这个数据使用逻辑回归，但是每次我加载数据集时，这个过程都会被终止。是否有一种方法可以将逻辑回归模型分块训练，系数在每次迭代时更新。sklearn是否支持解决我的问题的任何技巧？首先，请阅读。在数据集上训练LR的时间是。。。。有点高。为了避免这种情况，您可以在sklearn中使用LR的warm start参数，并在数据的chunck上循环 warm_start:bool，默认值：False设置为True时，重用解决方案将上一次调用的

经过预处理后，我的数据集由160万行和17000列组成。我想对这个数据使用逻辑回归，但是每次我加载数据集时，这个过程都会被终止。是否有一种方法可以将逻辑回归模型分块训练，系数在每次迭代时更新。sklearn是否支持解决我的问题的任何技巧？

首先，请阅读。在数据集上训练LR的时间是。。。。有点高。为了避免这种情况，您可以在sklearn中使用LR的warm start参数，并在数据的chunck上循环

warm_start:bool，默认值：False设置为True时，重用解决方案将上一次调用的fit作为初始化，否则，只需擦除先前的解决方案。对线性解算器没有用处。请参阅术语表

（来自）

更准确地说：

当在同一数据集上重复拟合估计器时，但对于多个参数值（如查找值最大限度地提高性能（如在网格搜索中），可以重用从上一个参数值学习的模型方面，保存时间当warm_start为true时，现有的已安装模型属性为用于在后续调用中初始化新模型以适应

（from）

首先，请阅读。在数据集上训练LR的时间是。。。。有点高。为了避免这种情况，您可以在sklearn中使用LR的warm start参数，并在数据的chunck上循环

（来自）

更准确地说：

（from）

您使用的是哪种逻辑回归算法？一种选择是针对LR和SVM的

SGDClassifier

的

partial_-fit

方法；查看您正在使用哪种逻辑回归算法？一个选项是针对LR和SVM的

sgdclassizer

的

partial_fit

方法；请参阅此处所用引号的链接。更新以将链接添加到使用的引号中是合适的。更新以添加链接