Amazon s3 使用SageMaker高效管理大量数据，以培训keras模型_Amazon S3_Keras_Bigdata_Amazon Sagemaker

Amazon s3 使用SageMaker高效管理大量数据，以培训keras模型

amazon-s3 keras

Amazon s3 使用SageMaker高效管理大量数据，以培训keras模型,amazon-s3,keras,bigdata,amazon-sagemaker,Amazon S3,Keras,Bigdata,Amazon Sagemaker,我正在进行一个深度学习项目，在数千个.csv文件（每个文件大约15MB）中包含大约700GB的类似表格的时间序列数据所有数据都在S3上，在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化具有内置预处理的自定义keras生成器是最佳解决方案吗？预处理意味着您可能希望将其与模型执行分离，并单独运行，可能是按计划运行，或响应新数据流入如果是这样，您可能希望在SageMaker之外进行预处理。您可以使用编排它，也可以编写自定义作业并通过EMR集群或在EMR集群上运行

我正在进行一个深度学习项目，在数千个.csv文件（每个文件大约15MB）中包含大约700GB的类似表格的时间序列数据

所有数据都在S3上，在输入模型之前需要进行一些预处理。问题是如何最好地实现加载、预处理和训练过程的自动化

具有内置预处理的自定义keras生成器是最佳解决方案吗？

预处理意味着您可能希望将其与模型执行分离，并单独运行，可能是按计划运行，或响应新数据流入

如果是这样，您可能希望在SageMaker之外进行预处理。您可以使用编排它，也可以编写自定义作业并通过EMR集群或在EMR集群上运行它

这样，您的Keras笔记本就可以加载已经预处理的数据，通过SageMaker进行训练和测试

稍加注意，您应该能够在预处理步骤中以增量方式执行至少一些繁重的工作，从而在深入学习过程中节省下游的时间和成本