Arrays 从hdf5文件中洗牌Dask数组块

Arrays 从hdf5文件中洗牌Dask数组块,arrays,dask,h5py,Arrays,Dask,H5py,我有一个非常大的数组存储在hdf5文件中。我正在尝试加载它并将其作为Dask阵列进行管理 目前我面临的挑战是,我需要在一个进程中不断地洗牌这个数组,洗牌一个比内存大的数组本身就是一个挑战 因此,我试图做的是洗牌dask数组块,但没有成功 #Prepare data f=h5py.File('Data.hdf5') dset = f['/Data'] dk_array = da.from_array(dset, chunks=dset.chunks) >以上的上下文,我如何洗牌?< /p> <

我有一个非常大的数组存储在hdf5文件中。我正在尝试加载它并将其作为Dask阵列进行管理

目前我面临的挑战是,我需要在一个进程中不断地洗牌这个数组,洗牌一个比内存大的数组本身就是一个挑战

因此,我试图做的是洗牌dask数组块,但没有成功

#Prepare data
f=h5py.File('Data.hdf5')
dset = f['/Data']
dk_array = da.from_array(dset, chunks=dset.chunks)

>以上的上下文,我如何洗牌?< /p> < p>如果你的数组是表的,那么你可以考虑添加一个随机数据列(参见<代码> DA.CouTATNATEATION/COD>和>DA.Node),将其转换成Dask.DATAFRAM,并将该列设置为索引。


作为警告,这将有点慢,因为它需要在磁盘上进行洗牌。

< P>如果您的数组是表式的,那么您可以考虑添加一个随机数据列(参见<代码> DA.CouTATNATEATION/COD>和<代码> DA.Node),将其转换成DASK.DATAFRAM,并将该列设置为索引。< /P>
作为警告,这将有点慢,因为它需要进行磁盘上的洗牌。

您能否更具体地说明您想要实现什么:您将如何洗牌,以及洗牌的目的是什么?您能否更具体地说明您想要实现什么:您将如何洗牌,洗牌的目的是什么?谢谢,这将有所帮助。干杯。谢谢,那会有帮助的。干杯