Python Sagemaker使用经过处理的酸洗ndarray而不是S3中的csv文件_Python_Amazon Web Services_Amazon S3_Amazon Sagemaker

Python Sagemaker使用经过处理的酸洗ndarray而不是S3中的csv文件

python amazon-web-services amazon-s3

Python Sagemaker使用经过处理的酸洗ndarray而不是S3中的csv文件,python,amazon-web-services,amazon-s3,amazon-sagemaker,Python,Amazon Web Services,Amazon S3,Amazon Sagemaker,我知道您可以使用以下代码将CSV文件从S3传递到Sagemaker XGBoost容器 train\u channel=sagemaker.session.s3\u输入（train\u数据，content\u type='text/csv'）有效的\u通道=sagemaker.session.s3\u输入（验证\u数据，内容\u type='text/csv'）数据_通道={'train'：列车_通道，'validation'：有效的_通道} xgb_model.fit（输入=数据通道，日志

我知道您可以使用以下代码将CSV文件从S3传递到Sagemaker XGBoost容器

train\u channel=sagemaker.session.s3\u输入（train\u数据，content\u type='text/csv'）
有效的\u通道=sagemaker.session.s3\u输入（验证\u数据，内容\u type='text/csv'）
数据_通道={'train'：列车_通道，'validation'：有效的_通道}
xgb_model.fit（输入=数据通道，日志=真）

但我有一个存储在S3桶中的数据数组。这些是经过处理、标签编码、功能设计的阵列。我希望将其传递到容器中，而不是csv。我知道我可以在将ndarray保存到S3之前将其转换为csv文件。只需检查是否有数组选项。

SageMaker中有多个算法选项：

，就像你提到的SageMaker XGBoost一样

自定义、用户创建的算法代码，可以是：

为预构建的docker映像编写，可用于Sklearn、TensorFlow、Pytorch、MXNet
写在你自己的容器里

使用内置（选项1）时，数据格式选项的选择仅限于内置支持的内容。如果您想在XGBoost之前使用自定义数据格式和预处理逻辑，那么使用自己的脚本利用开源XGBoost是绝对可能的。您可以从中获得灵感，了解如何在预制容器中创建自定义模型