Python 分块在数据集上训练SGDRegressor_Python_Machine Learning_Scikit Learn

Python 分块在数据集上训练SGDRegressor

python machine-learning scikit-learn

Python 分块在数据集上训练SGDRegressor,python,machine-learning,scikit-learn,Python,Machine Learning,Scikit Learn,对于机器学习任务，我需要处理相当大的数据集。因此，我无法在算法中一次拟合整个数据集。我正在寻找一种方法，在数据集中对我的算法进行部分训练，简单地输入新的数据块是行不通的，因为我的算法只是重新调整，不会考虑前面的示例。有没有一种方法可以在“记住”以前看到的数据的同时，为算法提供新数据编辑：我使用的算法是来自scikit learn的SGDRegressor 守则： train = pd.read_csv(os.path.join(dir,"Train.csv"),chunksize = 5000

对于机器学习任务，我需要处理相当大的数据集。因此，我无法在算法中一次拟合整个数据集。我正在寻找一种方法，在数据集中对我的算法进行部分训练，简单地输入新的数据块是行不通的，因为我的算法只是重新调整，不会考虑前面的示例。有没有一种方法可以在“记住”以前看到的数据的同时，为算法提供新数据

编辑：我使用的算法是来自scikit learn的SGDRegressor

守则：

train = pd.read_csv(os.path.join(dir,"Train.csv"),chunksize = 5000)
labels = pd.read_csv(os.path.join(dir,"Labels.csv"),chunksize = 5000)
algo = SGDRegressor(n_iter = 75)
print("looping for chunks in train")
for chunk in train:
    algo.fit(train,labels)

您可以使用将部分训练数据提供给SGDRegressor

请参见示例。

您最好添加一些关于您使用的算法的说明，欢迎使用一些工作代码片段、简短和自包含等。目前这个Q太宽了，因为不是所有的ML技术都可以增量使用。我现在就做。你可以使用遗传算法。。。如果你只是从你的训练集中随机抽取样本（你甚至不需要看整个训练集），那么一个人延续到下一代的机会与其健康分数成正比。。。（不管组中的其他健身分数）那么你有没有读过你在比赛中给出的答案？它也回答了这个问题。