Python Sagemaker使用经过处理的酸洗ndarray而不是S3中的csv文件

Python Sagemaker使用经过处理的酸洗ndarray而不是S3中的csv文件,python,amazon-web-services,amazon-s3,amazon-sagemaker,Python,Amazon Web Services,Amazon S3,Amazon Sagemaker,我知道您可以使用以下代码将CSV文件从S3传递到Sagemaker XGBoost容器 train\u channel=sagemaker.session.s3\u输入(train\u数据,content\u type='text/csv') 有效的\u通道=sagemaker.session.s3\u输入(验证\u数据,内容\u type='text/csv') 数据_通道={'train':列车_通道,'validation':有效的_通道} xgb_model.fit(输入=数据通道,日志

我知道您可以使用以下代码将CSV文件从S3传递到Sagemaker XGBoost容器

train\u channel=sagemaker.session.s3\u输入(train\u数据,content\u type='text/csv')
有效的\u通道=sagemaker.session.s3\u输入(验证\u数据,内容\u type='text/csv')
数据_通道={'train':列车_通道,'validation':有效的_通道}
xgb_model.fit(输入=数据通道,日志=真)

但我有一个存储在S3桶中的数据数组。这些是经过处理、标签编码、功能设计的阵列。我希望将其传递到容器中,而不是csv。我知道我可以在将ndarray保存到S3之前将其转换为csv文件。只需检查是否有数组选项。

SageMaker中有多个算法选项:

  • ,就像你提到的SageMaker XGBoost一样
  • 自定义、用户创建的算法代码,可以是:
    • 为预构建的docker映像编写,可用于Sklearn、TensorFlow、Pytorch、MXNet
    • 写在你自己的容器里
  • 使用内置(选项1)时,数据格式选项的选择仅限于内置支持的内容。如果您想在XGBoost之前使用自定义数据格式和预处理逻辑,那么使用自己的脚本利用开源XGBoost是绝对可能的。您可以从中获得灵感,了解如何在预制容器中创建自定义模型