Python 分块在数据集上训练SGDRegressor

Python 分块在数据集上训练SGDRegressor,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,对于机器学习任务,我需要处理相当大的数据集。因此,我无法在算法中一次拟合整个数据集。我正在寻找一种方法,在数据集中对我的算法进行部分训练,简单地输入新的数据块是行不通的,因为我的算法只是重新调整,不会考虑前面的示例。有没有一种方法可以在“记住”以前看到的数据的同时,为算法提供新数据 编辑:我使用的算法是来自scikit learn的SGDRegressor 守则: train = pd.read_csv(os.path.join(dir,"Train.csv"),chunksize = 5000

对于机器学习任务,我需要处理相当大的数据集。因此,我无法在算法中一次拟合整个数据集。我正在寻找一种方法,在数据集中对我的算法进行部分训练,简单地输入新的数据块是行不通的,因为我的算法只是重新调整,不会考虑前面的示例。有没有一种方法可以在“记住”以前看到的数据的同时,为算法提供新数据

编辑:我使用的算法是来自scikit learn的SGDRegressor

守则:

train = pd.read_csv(os.path.join(dir,"Train.csv"),chunksize = 5000)
labels = pd.read_csv(os.path.join(dir,"Labels.csv"),chunksize = 5000)
algo = SGDRegressor(n_iter = 75)
print("looping for chunks in train")
for chunk in train:
    algo.fit(train,labels)
您可以使用将部分训练数据提供给SGDRegressor


请参见示例。

您最好添加一些关于您使用的算法的说明,欢迎使用一些工作代码片段、简短和自包含等。目前这个Q太宽了,因为不是所有的ML技术都可以增量使用。我现在就做。你可以使用遗传算法。。。如果你只是从你的训练集中随机抽取样本(你甚至不需要看整个训练集),那么一个人延续到下一代的机会与其健康分数成正比。。。(不管组中的其他健身分数)那么你有没有读过你在比赛中给出的答案?它也回答了这个问题。