Scikit learn 可以使用增量PCA或随机梯度下降或其他scikit学习部分拟合算法_Scikit Learn_Pca_Dask

Scikit learn 可以使用增量PCA或随机梯度下降或其他scikit学习部分拟合算法

scikit-learn dask

Scikit learn 可以使用增量PCA或随机梯度下降或其他scikit学习部分拟合算法,scikit-learn,pca,dask,Scikit Learn,Pca,Dask,基于和增量PCA文档，它建议使用memmap数组，但是否可以使用dask完成相同的任务更新将问题扩展到包括其他部分拟合算法，因为git repo for dask提到了一种使用任何支持部分拟合的scikit learn的方法，但我似乎在API中找不到相关文档。当我尝试对6000x250000 float64dask数据帧进行增量pca时，在不调整dask调度程序的情况下，在16核104GB虚拟机上花了8个小时取得了9%的进度，但我不确定这是否是由于我的代码太差，或者对于这样大小的数据集，这是否

基于和增量PCA文档，它建议使用memmap数组，但是否可以使用dask完成相同的任务

更新将问题扩展到包括其他部分拟合算法，因为git repo for dask提到了一种使用任何支持部分拟合的scikit learn的方法，但我似乎在API中找不到相关文档。当我尝试对

6000x250000 float64

dask数据帧进行增量pca时，在不调整dask调度程序的情况下，在16核104GB虚拟机上花了8个小时取得了9%的进度，但我不确定这是否是由于我的代码太差，或者对于这样大小的数据集，这是否是预期的结果。我欢迎任何关于SGD批量大小的建议，即使只是作为证明cepthttps://github.com/dask/dask/blob/master/dask/array/learn.pyhttp://matthewrocklin.com/blog/work/2016/07/12/dask-learn-part-1

该功能在小空间内并行运行

dask.array中的函数支持使用

部分拟合

方法的任何

sklearn.Estimator

该项目处理

部分拟合

、网格搜索、管道等。。查看Jim Crist关于该项目的三部分博客系列：

您对分区大小有什么建议吗？目前，每个分区看起来只有一行。请阅读文档：