Numpy 复制到h5py的速度非常慢_Numpy_H5py

Numpy 复制到h5py的速度非常慢

numpy

Numpy 复制到h5py的速度非常慢,numpy,h5py,Numpy,H5py,我目前正在向h5py阵列添加，已将阵列定义为： f = h5py.File(batch_path,'w') data = f.create_dataset('data_set',(525600,1300),dtype=np.float32) 并将数组添加到其中，如下所示： for index,file in enumerate(files): df = pd.read_csv(file) result = np.array(list(map(lambda x: float(x.

我目前正在向h5py阵列添加，已将阵列定义为：

f = h5py.File(batch_path,'w')
data = f.create_dataset('data_set',(525600,1300),dtype=np.float32)

并将数组添加到其中，如下所示：

for index,file in enumerate(files):
    df = pd.read_csv(file)
    result = np.array(list(map(lambda x: float(x.split(';')[1]),df.as_matrix()[:,0])))
    data[:,index] = result[:]

然而，最后一步（data[：，index]=result[：]）花费了惊人的时间。这里出了什么问题？

我发现不适当的分块会严重影响读写性能。如果您知道将在HDF5数据集上执行何种内存不足查询，则可以选择适当的块大小。有关详细信息，请参阅。如果保存到（130052600）集合，在第一个维度上迭代，会有任何差异。1）使用分块。例如2）再看一看“最简单的花式切片”。这也将对性能产生显著影响。