Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/328.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
在VM中使用python tensorflow脚本在云端处理大型数据集(图像)的最佳实践_Python_Tensorflow_Google Cloud Platform_Dataset_Google Cloud Storage - Fatal编程技术网

在VM中使用python tensorflow脚本在云端处理大型数据集(图像)的最佳实践

在VM中使用python tensorflow脚本在云端处理大型数据集(图像)的最佳实践,python,tensorflow,google-cloud-platform,dataset,google-cloud-storage,Python,Tensorflow,Google Cloud Platform,Dataset,Google Cloud Storage,必须从VM访问位于Google存储中的GB大小的数据集,以训练和测试tensorflow模型。由于GCS延迟,访问所有17500个映像的速度非常慢。另一种方法是压缩数据集并将其下载到VM。但是,这会引起内存问题。因此,在这种情况下,处理数据的最佳方法是什么 当前方法:在本地下载zip文件,并在提取.zip文件后访问单个图像。如何在数据集中包含.zip文件夹的部分中下载数据集。最佳做法是使用TFRECORD格式。您可以找到文档 TFRECORD是一种高效的大型数据集存储模式。它针对阅读洗牌和ML训

必须从VM访问位于Google存储中的GB大小的数据集,以训练和测试tensorflow模型。由于GCS延迟,访问所有17500个映像的速度非常慢。另一种方法是压缩数据集并将其下载到VM。但是,这会引起内存问题。因此,在这种情况下,处理数据的最佳方法是什么


当前方法:在本地下载zip文件,并在提取.zip文件后访问单个图像。如何在数据集中包含.zip文件夹的部分中下载数据集。

最佳做法是使用
TFRECORD
格式。您可以找到文档

TFRECORD
是一种高效的大型数据集存储模式。它针对阅读洗牌和ML训练中的所有其他重要内容进行了优化

然而,没有什么是神奇的。您必须在本地下载此文件(如果您制作了多个文件,也可以下载这些文件),然后使用it高效地进行培训。GB不是很大。每个虚拟机至少有10或20Gb的磁盘。为了获得良好的I/O,建议使用至少200Gb的磁盘