Warning: file_get_contents(/data/phpspider/zhask/data//catemap/8/design-patterns/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 处理由npy文件组成的大型数据集_Python_Machine Learning_Image Processing_Deep Learning_Computer Vision - Fatal编程技术网

Python 处理由npy文件组成的大型数据集

Python 处理由npy文件组成的大型数据集,python,machine-learning,image-processing,deep-learning,computer-vision,Python,Machine Learning,Image Processing,Deep Learning,Computer Vision,我有大量的npy文件(448个文件),每个文件由大约12k帧(150x150 RGB图像)组成,它们共同构成我的神经网络(X)的输入。但是,由于不可能将所有文件加载到单个数组中,而且有必要对所有样本进行洗牌以避免偏差,因此如何创建输入并将其馈送到网络?有人建议创建一个虚拟数组来表示索引,将其洗牌,根据数组大小和索引创建块,然后将块输入神经网络。然而,我想知道是否还有另一种更简单的方法。我还熟悉Tensorflow(+keras)和PyTorch。 总之,我想执行此步骤,但要处理大量大型npy文件

我有大量的npy文件(448个文件),每个文件由大约12k帧(150x150 RGB图像)组成,它们共同构成我的神经网络(X)的输入。但是,由于不可能将所有文件加载到单个数组中,而且有必要对所有样本进行洗牌以避免偏差,因此如何创建输入并将其馈送到网络?有人建议创建一个虚拟数组来表示索引,将其洗牌,根据数组大小和索引创建块,然后将块输入神经网络。然而,我想知道是否还有另一种更简单的方法。我还熟悉Tensorflow(+keras)和PyTorch。 总之,我想执行此步骤,但要处理大量大型npy文件:

X\u train\u文件名,X\u val\u文件名,y\u train,y\u val=train\u test\u split(…)

是否需要在每个
.npy
文件之间移动?我的意思是,在IMO中,应该足够使用
12_000
shuffled示例,然后是另一个
12_000
shuffled示例等等?每次,
12_000
都会是不同的
.npy
文件。您有多少RAM内存,是否足以容纳至少一个
.npy
?@SzymonMaszke是的,实际上,我们的想法是将所有样本与其输出一起洗牌。我已经找到了一个解决方案,使用TFrecords,但我还不知道如何在每个
.npy
文件之间切换?我的意思是,在IMO中,应该足够使用
12_000
shuffled示例,然后是另一个
12_000
shuffled示例等等?每次,
12_000
都会是不同的
.npy
文件。您有多少RAM内存,是否足以容纳至少一个
.npy
?@SzymonMaszke是的,实际上,我们的想法是将所有样本与其输出一起洗牌。我已经找到了一个解决方案,使用TFrecords,但我还没有找到方法