Google cloud platform PyTorch的云存储桶

Google cloud platform PyTorch的云存储桶,google-cloud-platform,deep-learning,google-cloud-storage,pytorch,Google Cloud Platform,Deep Learning,Google Cloud Storage,Pytorch,对于我正在处理的特定任务,我有一个大约25GB的数据集。我仍在试验几种预处理方法,而且我的数据还没有最终形成。我不确定这类问题的通用工作流程是什么,因此我的想法如下: 使用gcsfuse将数据集从存储桶复制到计算引擎机器SSD(可能使用大约50 GB的SSD) 应用各种预处理操作作为实验 使用PyTorch对存储在本地磁盘(SSD)上的数据运行培训 如果成功,则使用gcsfuse将新处理的数据复制回存储桶 上载结果并删除培训期间使用的永久磁盘 另一种方法是: 使用gcsfuse挂载的目录对云存储

对于我正在处理的特定任务,我有一个大约25GB的数据集。我仍在试验几种预处理方法,而且我的数据还没有最终形成。我不确定这类问题的通用工作流程是什么,因此我的想法如下:

  • 使用gcsfuse将数据集从存储桶复制到计算引擎机器SSD(可能使用大约50 GB的SSD)
  • 应用各种预处理操作作为实验
  • 使用PyTorch对存储在本地磁盘(SSD)上的数据运行培训
  • 如果成功,则使用gcsfuse将新处理的数据复制回存储桶
  • 上载结果并删除培训期间使用的永久磁盘
  • 另一种方法是:

  • 使用gcsfuse挂载的目录对云存储桶本身内的数据运行处理操作
  • 使用存储空间非常有限的计算引擎实例,直接在挂载的gcsfuse Bucket目录上运行PyTorch培训
  • 上载结果并删除计算引擎实例

  • 建议采用以下哪种方法?这将产生较少的费用,并且在运行此类操作时最常用。我在这里没有看到不同的工作流程吗?

    在计费方面,收费是相同的,因为fuse操作的收费与其他任何云存储接口的收费相同。在您的用例中,我不知道您将如何训练数据,但如果您对文件执行多个操作,则最好将其下载、本地训练,然后上传最终结果,这将是两个对象操作。例如,如果在培训期间对文件进行了多次更改或读取,则每个操作都将是对象操作。在工作流程方面,我觉得提议的方案很不错。

    谢谢!这很有帮助:)