Numpy 在google colaboratory上处理自动编码器时,如何使用大型培训集?

Numpy 在google colaboratory上处理自动编码器时,如何使用大型培训集?,numpy,keras,deep-learning,google-colaboratory,training-data,Numpy,Keras,Deep Learning,Google Colaboratory,Training Data,我正在谷歌colab上训练一个自动编码器(keras)。然而,我有25000个输入图像和25000个输出图像。我试图: 1-每次将大文件从google drive复制到colab(需要5-6小时)。 2-将集合转换为numpy数组,但在规范化图像时,大小会变得更大(例如从7GB到24GB),然后我无法将其放入ram内存。 3-我无法压缩和解压我的数据。 所以,如果有人知道如何在没有大文件(24GB)的情况下将其转换为numpy数组(并对其进行规范化),请告诉我 压缩所有图像并将.Zip文件加载到

我正在谷歌colab上训练一个自动编码器(keras)。然而,我有25000个输入图像和25000个输出图像。我试图: 1-每次将大文件从google drive复制到colab(需要5-6小时)。 2-将集合转换为numpy数组,但在规范化图像时,大小会变得更大(例如从7GB到24GB),然后我无法将其放入ram内存。 3-我无法压缩和解压我的数据。 所以,如果有人知道如何在没有大文件(24GB)的情况下将其转换为numpy数组(并对其进行规范化),请告诉我

  • 压缩所有图像并将
    .Zip
    文件加载到您的谷歌硬盘上
  • 戴齐普在你的衣柜里:
  • 您的所有图像都已解压缩并存储在Colab磁盘上,现在您可以更快地访问它们
  • 在keras中使用生成器,或者创建自己的生成器
  • 在适合您的模型时使用生成器:
  • 使用
    ntrain
    nval
    列车和验证数据集中的图像数

    from zipfile import ZipFile
    
    with ZipFile('data.zip', 'r') as zip:
       zip.extractall()
    
    moel.fit(train_generator, steps_per_epoch = ntrain // batch_size,
             epochs=epochs,validation_data=val_generator, 
             validation_steps= nval // batch_size)