能否在dask数组上使用dask_ml kmeans?

能否在dask数组上使用dask_ml kmeans?,dask,dask-ml,Dask,Dask Ml,我有以下代码: feature_array = da.concatenate(features, axis=1)#.compute() model = KMeans(n_clusters=4) model.fit(features, y=None) 现在,如果我先计算feature_array,这段代码运行得很好,但是如果没有它,它会产生一些我无法真正理解的内部类型错误: File "/Users/(...)/lib/python3.7/site-packages/dask_ml/utils.

我有以下代码:

feature_array = da.concatenate(features, axis=1)#.compute()
model = KMeans(n_clusters=4)
model.fit(features, y=None)
现在,如果我先计算feature_array,这段代码运行得很好,但是如果没有它,它会产生一些我无法真正理解的内部类型错误:

File "/Users/(...)/lib/python3.7/site-packages/dask_ml/utils.py", line 168, in check_array
    sample = np.ones(shape=shape, dtype=array.dtype)
  File "/Users/(...)/lib/python3.7/site-packages/numpy/core/numeric.py", line 207, in ones
    a = empty(shape, dtype, order)
TypeError: 'float' object cannot be interpreted as an integer
我不应该使用带有dask_ml的dask数组吗?我想使用dask_ml的主要原因是我希望这段代码能够在大于内存的数据集上运行

干杯, 弗洛里安

对我来说还可以

在[1]中:从dask_ml.cluster导入KMeans 在[2]中:将dask.array作为da导入 在[3]中:x=da.random.random 10,3 [4]中:k=KMeansn_簇=3 In[5]:k.fitx 出[5]: KMeansalgorithm='full',copy_x=True,init='k-means | |',init_max_iter=None, 最大iter=300,n个集群=3,n个作业=1,过采样系数=2, 预计算距离=自动,随机状态=无,tol=0.0001 我建议提供一个

另外,您提供的是Numpy阵列,而不是Dask阵列