在VM中使用python tensorflow脚本在云端处理大型数据集（图像）的最佳实践_Python_Tensorflow_Google Cloud Platform_Dataset_Google Cloud Storage

在VM中使用python tensorflow脚本在云端处理大型数据集（图像）的最佳实践

python tensorflow google-cloud-platform google-cloud-storage

在VM中使用python tensorflow脚本在云端处理大型数据集（图像）的最佳实践,python,tensorflow,google-cloud-platform,dataset,google-cloud-storage,Python,Tensorflow,Google Cloud Platform,Dataset,Google Cloud Storage,必须从VM访问位于Google存储中的GB大小的数据集，以训练和测试tensorflow模型。由于GCS延迟，访问所有17500个映像的速度非常慢。另一种方法是压缩数据集并将其下载到VM。但是，这会引起内存问题。因此，在这种情况下，处理数据的最佳方法是什么当前方法：在本地下载zip文件，并在提取.zip文件后访问单个图像。如何在数据集中包含.zip文件夹的部分中下载数据集。最佳做法是使用TFRECORD格式。您可以找到文档 TFRECORD是一种高效的大型数据集存储模式。它针对阅读洗牌和ML训

必须从VM访问位于Google存储中的GB大小的数据集，以训练和测试tensorflow模型。由于GCS延迟，访问所有17500个映像的速度非常慢。另一种方法是压缩数据集并将其下载到VM。但是，这会引起内存问题。因此，在这种情况下，处理数据的最佳方法是什么

当前方法：在本地下载zip文件，并在提取.zip文件后访问单个图像。如何在数据集中包含.zip文件夹的部分中下载数据集。

最佳做法是使用

TFRECORD

格式。您可以找到文档

TFRECORD

是一种高效的大型数据集存储模式。它针对阅读洗牌和ML训练中的所有其他重要内容进行了优化

然而，没有什么是神奇的。您必须在本地下载此文件（如果您制作了多个文件，也可以下载这些文件），然后使用it高效地进行培训。GB不是很大。每个虚拟机至少有10或20Gb的磁盘。为了获得良好的I/O，建议使用至少200Gb的磁盘