Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/cplusplus/135.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗?_Amazon Web Services_Amazon Sagemaker - Fatal编程技术网

Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗?

Amazon web services 我可以让亚马逊SageMaker根据历史数据而不是概率分数提供推荐吗?,amazon-web-services,amazon-sagemaker,Amazon Web Services,Amazon Sagemaker,我们有大量CSV格式的数据,包含一些数字元素,如下所示: Year,BinaryDigit,NumberToPredict,JustANumber, ...other stuff 1954,1,762,16, ...other stuff 1965,0,142,16, ...other stuff 1977,1,172,16, ...other stuff 这里的问题是,第三列和之前的列之间有很强的相关性。因此,我已经对数据进行了预处理,现在可以使用我认为完美的格式: 1954,1,762 1

我们有大量CSV格式的数据,包含一些数字元素,如下所示:

Year,BinaryDigit,NumberToPredict,JustANumber, ...other stuff
1954,1,762,16, ...other stuff
1965,0,142,16, ...other stuff
1977,1,172,16, ...other stuff
这里的问题是,第三列和之前的列之间有很强的相关性。因此,我已经对数据进行了预处理,现在可以使用我认为完美的格式:

1954,1,762
1965,0,142
1977,1,172
我想要的是对第三列中的值进行预测,使用前两列作为输入。在上面的例子中,我希望输入1965,0返回142。在现实生活中,这个文件有数千行,但由于有一个模式,我想检索最可能的值

到目前为止,我已经使用线性学习算法在CSV文件上设置了一个训练作业,设置如下:

label_size = 1
feature_dim = 2
predictor_type = regression
我还从中创建了一个模型,并设置了一个端点。当我调用它时,我得到一个分数作为回报

    response = runtime.invoke_endpoint(EndpointName=ENDPOINT_NAME,
                                   ContentType='text/csv',
                                   Body=payload)
我的目标是得到第三列预测。我怎样才能做到这一点?我已经阅读了很多关于这方面的文档,但是由于我对AWS不是很熟悉,我可能在我尝试做的事情中使用了错误的算法


(请随意编辑此问题以更好地适应AWS术语)

根据

:

对于推理,线性学习器算法支持application/json、application/x-recordio-protobuf和text/csv格式。对于二元分类模型,它同时返回分数和预测标签。对于回归,它只返回分数

有关输入和输出文件格式的详细信息,请参阅以获取推断和


对于csv输入,标签应该在第一列,如前所述:因此您应该预处理数据,将标签(您要预测的列)放在左侧

接下来,您需要确定这是一个回归问题还是一个分类问题

如果你想预测一个尽可能接近真实数字的数字,那就是回归。例如,事实可能是4,而模型可能预测4.15。如果需要整数预测,可以对模型的输出进行四舍五入

如果希望预测是几个类别中的一个,那么就存在分类问题。例如,我们可以将“北美”编码为0,“欧洲”编码为1,“非洲”编码为2,依此类推。在这种情况下,分数预测是没有意义的

对于回归,使用
'predictor\u type'='regressor'
,对于超过2个类别的分类,使用
'predictor\u type'='multiclass\u classifier'


回归的输出将只包含一个
'score'
字段,这是模型的预测。多类分类的输出将包含一个
'predicted_label'
字段,该字段是模型的预测,以及一个
'score'
字段,该字段是表示模型置信度的概率向量。概率最高的索引将被预测为
'predicted\u label'
。输出格式已记录在案。

我将答案切换到这一个,因为这更详细。谢谢