Python 处理由npy文件组成的大型数据集_Python_Machine Learning_Image Processing_Deep Learning_Computer Vision

Python 处理由npy文件组成的大型数据集

python machine-learning image-processing deep-learning computer-vision

Python 处理由npy文件组成的大型数据集,python,machine-learning,image-processing,deep-learning,computer-vision,Python,Machine Learning,Image Processing,Deep Learning,Computer Vision,我有大量的npy文件（448个文件），每个文件由大约12k帧（150x150 RGB图像）组成，它们共同构成我的神经网络（X）的输入。但是，由于不可能将所有文件加载到单个数组中，而且有必要对所有样本进行洗牌以避免偏差，因此如何创建输入并将其馈送到网络？有人建议创建一个虚拟数组来表示索引，将其洗牌，根据数组大小和索引创建块，然后将块输入神经网络。然而，我想知道是否还有另一种更简单的方法。我还熟悉Tensorflow（+keras）和PyTorch。总之，我想执行此步骤，但要处理大量大型npy文件

我有大量的npy文件（448个文件），每个文件由大约12k帧（150x150 RGB图像）组成，它们共同构成我的神经网络（X）的输入。但是，由于不可能将所有文件加载到单个数组中，而且有必要对所有样本进行洗牌以避免偏差，因此如何创建输入并将其馈送到网络？有人建议创建一个虚拟数组来表示索引，将其洗牌，根据数组大小和索引创建块，然后将块输入神经网络。然而，我想知道是否还有另一种更简单的方法。我还熟悉Tensorflow（+keras）和PyTorch。总之，我想执行此步骤，但要处理大量大型npy文件：

X\u train\u文件名，X\u val\u文件名，y\u train，y\u val=train\u test\u split（…）

是否需要在每个

.npy

文件之间移动？我的意思是，在IMO中，应该足够使用

12_000

shuffled示例，然后是另一个

12_000

shuffled示例等等？每次，

12_000

都会是不同的

.npy

文件。您有多少RAM内存，是否足以容纳至少一个

.npy

？@SzymonMaszke是的，实际上，我们的想法是将所有样本与其输出一起洗牌。我已经找到了一个解决方案，使用TFrecords，但我还不知道如何在每个

.npy

文件之间切换？我的意思是，在IMO中，应该足够使用

12_000

shuffled示例，然后是另一个

12_000

shuffled示例等等？每次，

12_000

都会是不同的

.npy

文件。您有多少RAM内存，是否足以容纳至少一个

.npy

？@SzymonMaszke是的，实际上，我们的想法是将所有样本与其输出一起洗牌。我已经找到了一个解决方案，使用TFrecords，但我还没有找到方法