Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗？_Amazon Web Services_Amazon Sagemaker

Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗？

amazon-web-services

Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗？,amazon-web-services,amazon-sagemaker,Amazon Web Services,Amazon Sagemaker,我们有大量CSV格式的数据，包含一些数字元素，如下所示： Year,BinaryDigit,NumberToPredict,JustANumber, ...other stuff 1954,1,762,16, ...other stuff 1965,0,142,16, ...other stuff 1977,1,172,16, ...other stuff 这里的问题是，第三列和之前的列之间有很强的相关性。因此，我已经对数据进行了预处理，现在可以使用我认为完美的格式： 1954,1,762 1

我们有大量CSV格式的数据，包含一些数字元素，如下所示：

Year,BinaryDigit,NumberToPredict,JustANumber, ...other stuff
1954,1,762,16, ...other stuff
1965,0,142,16, ...other stuff
1977,1,172,16, ...other stuff

这里的问题是，第三列和之前的列之间有很强的相关性。因此，我已经对数据进行了预处理，现在可以使用我认为完美的格式：

1954,1,762
1965,0,142
1977,1,172

我想要的是对第三列中的值进行预测，使用前两列作为输入。在上面的例子中，我希望输入1965,0返回142。在现实生活中，这个文件有数千行，但由于有一个模式，我想检索最可能的值

到目前为止，我已经使用线性学习算法在CSV文件上设置了一个训练作业，设置如下：

label_size = 1
feature_dim = 2
predictor_type = regression

我还从中创建了一个模型，并设置了一个端点。当我调用它时，我得到一个分数作为回报

    response = runtime.invoke_endpoint(EndpointName=ENDPOINT_NAME,
                                   ContentType='text/csv',
                                   Body=payload)

我的目标是得到第三列预测。我怎样才能做到这一点？我已经阅读了很多关于这方面的文档，但是由于我对AWS不是很熟悉，我可能在我尝试做的事情中使用了错误的算法

（请随意编辑此问题以更好地适应AWS术语）

根据

对于推理，线性学习器算法支持application/json、application/x-recordio-protobuf和text/csv格式。对于二元分类模型，它同时返回分数和预测标签。对于回归，它只返回分数

有关输入和输出文件格式的详细信息，请参阅以获取推断和

对于csv输入，标签应该在第一列，如前所述：因此您应该预处理数据，将标签（您要预测的列）放在左侧

接下来，您需要确定这是一个回归问题还是一个分类问题

如果你想预测一个尽可能接近真实数字的数字，那就是回归。例如，事实可能是4，而模型可能预测4.15。如果需要整数预测，可以对模型的输出进行四舍五入

如果希望预测是几个类别中的一个，那么就存在分类问题。例如，我们可以将“北美”编码为0，“欧洲”编码为1，“非洲”编码为2，依此类推。在这种情况下，分数预测是没有意义的

对于回归，使用

'predictor\u type'='regressor'

，对于超过2个类别的分类，使用

'predictor\u type'='multiclass\u classifier'

回归的输出将只包含一个

'score'

字段，这是模型的预测。多类分类的输出将包含一个

'predicted_label'

字段，该字段是模型的预测，以及一个

'score'

字段，该字段是表示模型置信度的概率向量。概率最高的索引将被预测为

'predicted\u label'

。输出格式已记录在案。

我将答案切换到这一个，因为这更详细。谢谢