Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗?
我们有大量CSV格式的数据,包含一些数字元素,如下所示:Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗?,amazon-web-services,amazon-sagemaker,Amazon Web Services,Amazon Sagemaker,我们有大量CSV格式的数据,包含一些数字元素,如下所示: Year,BinaryDigit,NumberToPredict,JustANumber, ...other stuff 1954,1,762,16, ...other stuff 1965,0,142,16, ...other stuff 1977,1,172,16, ...other stuff 这里的问题是,第三列和之前的列之间有很强的相关性。因此,我已经对数据进行了预处理,现在可以使用我认为完美的格式: 1954,1,762 1
Year,BinaryDigit,NumberToPredict,JustANumber, ...other stuff
1954,1,762,16, ...other stuff
1965,0,142,16, ...other stuff
1977,1,172,16, ...other stuff
这里的问题是,第三列和之前的列之间有很强的相关性。因此,我已经对数据进行了预处理,现在可以使用我认为完美的格式:
1954,1,762
1965,0,142
1977,1,172
我想要的是对第三列中的值进行预测,使用前两列作为输入。在上面的例子中,我希望输入1965,0返回142。在现实生活中,这个文件有数千行,但由于有一个模式,我想检索最可能的值
到目前为止,我已经使用线性学习算法在CSV文件上设置了一个训练作业,设置如下:
label_size = 1
feature_dim = 2
predictor_type = regression
我还从中创建了一个模型,并设置了一个端点。当我调用它时,我得到一个分数作为回报
response = runtime.invoke_endpoint(EndpointName=ENDPOINT_NAME,
ContentType='text/csv',
Body=payload)
我的目标是得到第三列预测。我怎样才能做到这一点?我已经阅读了很多关于这方面的文档,但是由于我对AWS不是很熟悉,我可能在我尝试做的事情中使用了错误的算法
(请随意编辑此问题以更好地适应AWS术语)根据 : 对于推理,线性学习器算法支持application/json、application/x-recordio-protobuf和text/csv格式。对于二元分类模型,它同时返回分数和预测标签。对于回归,它只返回分数 有关输入和输出文件格式的详细信息,请参阅以获取推断和
对于csv输入,标签应该在第一列,如前所述:因此您应该预处理数据,将标签(您要预测的列)放在左侧 接下来,您需要确定这是一个回归问题还是一个分类问题 如果你想预测一个尽可能接近真实数字的数字,那就是回归。例如,事实可能是4,而模型可能预测4.15。如果需要整数预测,可以对模型的输出进行四舍五入 如果希望预测是几个类别中的一个,那么就存在分类问题。例如,我们可以将“北美”编码为0,“欧洲”编码为1,“非洲”编码为2,依此类推。在这种情况下,分数预测是没有意义的 对于回归,使用
'predictor\u type'='regressor'
,对于超过2个类别的分类,使用'predictor\u type'='multiclass\u classifier'
回归的输出将只包含一个
'score'
字段,这是模型的预测。多类分类的输出将包含一个'predicted_label'
字段,该字段是模型的预测,以及一个'score'
字段,该字段是表示模型置信度的概率向量。概率最高的索引将被预测为'predicted\u label'
。输出格式已记录在案。我将答案切换到这一个,因为这更详细。谢谢