Scikit learn 可以使用增量PCA或随机梯度下降或其他scikit学习部分拟合算法

Scikit learn 可以使用增量PCA或随机梯度下降或其他scikit学习部分拟合算法,scikit-learn,pca,dask,Scikit Learn,Pca,Dask,基于和增量PCA文档,它建议使用memmap数组,但是否可以使用dask完成相同的任务 更新将问题扩展到包括其他部分拟合算法,因为git repo for dask提到了一种使用任何支持部分拟合的scikit learn的方法,但我似乎在API中找不到相关文档。当我尝试对6000x250000 float64dask数据帧进行增量pca时,在不调整dask调度程序的情况下,在16核104GB虚拟机上花了8个小时取得了9%的进度,但我不确定这是否是由于我的代码太差,或者对于这样大小的数据集,这是否

基于和增量PCA文档,它建议使用memmap数组,但是否可以使用dask完成相同的任务

更新将问题扩展到包括其他部分拟合算法,因为git repo for dask提到了一种使用任何支持部分拟合的scikit learn的方法,但我似乎在API中找不到相关文档。当我尝试对
6000x250000 float64
dask数据帧进行增量pca时,在不调整dask调度程序的情况下,在16核104GB虚拟机上花了8个小时取得了9%的进度,但我不确定这是否是由于我的代码太差,或者对于这样大小的数据集,这是否是预期的结果。我欢迎任何关于SGD批量大小的建议,即使只是作为证明cepthttps://github.com/dask/dask/blob/master/dask/array/learn.pyhttp://matthewrocklin.com/blog/work/2016/07/12/dask-learn-part-1

该功能在小空间内并行运行

dask.array中的函数支持使用
部分拟合
方法的任何
sklearn.Estimator

该项目处理
部分拟合
、网格搜索、管道等。。查看Jim Crist关于该项目的三部分博客系列:


  • 您对分区大小有什么建议吗?目前,每个分区看起来只有一行。请阅读文档: