在VM中使用python tensorflow脚本在云端处理大型数据集(图像)的最佳实践
必须从VM访问位于Google存储中的GB大小的数据集,以训练和测试tensorflow模型。由于GCS延迟,访问所有17500个映像的速度非常慢。另一种方法是压缩数据集并将其下载到VM。但是,这会引起内存问题。因此,在这种情况下,处理数据的最佳方法是什么在VM中使用python tensorflow脚本在云端处理大型数据集(图像)的最佳实践,python,tensorflow,google-cloud-platform,dataset,google-cloud-storage,Python,Tensorflow,Google Cloud Platform,Dataset,Google Cloud Storage,必须从VM访问位于Google存储中的GB大小的数据集,以训练和测试tensorflow模型。由于GCS延迟,访问所有17500个映像的速度非常慢。另一种方法是压缩数据集并将其下载到VM。但是,这会引起内存问题。因此,在这种情况下,处理数据的最佳方法是什么 当前方法:在本地下载zip文件,并在提取.zip文件后访问单个图像。如何在数据集中包含.zip文件夹的部分中下载数据集。最佳做法是使用TFRECORD格式。您可以找到文档 TFRECORD是一种高效的大型数据集存储模式。它针对阅读洗牌和ML训
当前方法:在本地下载zip文件,并在提取.zip文件后访问单个图像。如何在数据集中包含.zip文件夹的部分中下载数据集。最佳做法是使用
TFRECORD
格式。您可以找到文档
TFRECORD
是一种高效的大型数据集存储模式。它针对阅读洗牌和ML训练中的所有其他重要内容进行了优化
然而,没有什么是神奇的。您必须在本地下载此文件(如果您制作了多个文件,也可以下载这些文件),然后使用it高效地进行培训。GB不是很大。每个虚拟机至少有10或20Gb的磁盘。为了获得良好的I/O,建议使用至少200Gb的磁盘