Amazon s3 使用SageMaker高效管理大量数据,以培训keras模型

Amazon s3 使用SageMaker高效管理大量数据,以培训keras模型,amazon-s3,keras,bigdata,amazon-sagemaker,Amazon S3,Keras,Bigdata,Amazon Sagemaker,我正在进行一个深度学习项目,在数千个.csv文件(每个文件大约15MB)中包含大约700GB的类似表格的时间序列数据 所有数据都在S3上,在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化具有内置预处理的自定义keras生成器是最佳解决方案吗?预处理意味着您可能希望将其与模型执行分离,并单独运行,可能是按计划运行,或响应新数据流入 如果是这样,您可能希望在SageMaker之外进行预处理。您可以使用编排它,也可以编写自定义作业并通过EMR集群或在EMR集群上运行

我正在进行一个深度学习项目,在数千个.csv文件(每个文件大约15MB)中包含大约700GB的类似表格的时间序列数据

所有数据都在S3上,在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化

具有内置预处理的自定义keras生成器是最佳解决方案吗?

预处理意味着您可能希望将其与模型执行分离,并单独运行,可能是按计划运行,或响应新数据流入

如果是这样,您可能希望在SageMaker之外进行预处理。您可以使用编排它,也可以编写自定义作业并通过EMR集群或在EMR集群上运行它

这样,您的Keras笔记本就可以加载已经预处理的数据,通过SageMaker进行训练和测试

稍加注意,您应该能够在预处理步骤中以增量方式执行至少一些繁重的工作,从而在深入学习过程中节省下游的时间和成本