Numpy 复制到h5py的速度非常慢

Numpy 复制到h5py的速度非常慢,numpy,h5py,Numpy,H5py,我目前正在向h5py阵列添加,已将阵列定义为: f = h5py.File(batch_path,'w') data = f.create_dataset('data_set',(525600,1300),dtype=np.float32) 并将数组添加到其中,如下所示: for index,file in enumerate(files): df = pd.read_csv(file) result = np.array(list(map(lambda x: float(x.

我目前正在向h5py阵列添加,已将阵列定义为:

f = h5py.File(batch_path,'w')
data = f.create_dataset('data_set',(525600,1300),dtype=np.float32)
并将数组添加到其中,如下所示:

for index,file in enumerate(files):
    df = pd.read_csv(file)
    result = np.array(list(map(lambda x: float(x.split(';')[1]),df.as_matrix()[:,0])))
    data[:,index] = result[:]

然而,最后一步(data[:,index]=result[:])花费了惊人的时间。这里出了什么问题?

我发现不适当的分块会严重影响读写性能。如果您知道将在HDF5数据集上执行何种内存不足查询,则可以选择适当的块大小。有关详细信息,请参阅。如果保存到(130052600)集合,在第一个维度上迭代,会有任何差异。1)使用分块。例如2)再看一看“最简单的花式切片”。这也将对性能产生显著影响。