Machine learning 当培训数据有分类标签,但所需任务是概率时,该怎么办?

Machine learning 当培训数据有分类标签,但所需任务是概率时,该怎么办?,machine-learning,classification,regression,Machine Learning,Classification,Regression,在一个机器学习项目中,我有一些关于公司客户的培训数据,其中包括20个输入功能和一个标签,表示客户对营销活动的反馈,其形式为是/否答案: c1 => {f1_1,f2_1,...,f20_1} {Yes} c2 => {f1_2,f2_2,...,f20_2} {No} 要求是预测每个客户对活动的接受概率 因此,训练数据有一个二元分类标签,而需求是一个回归预测 我能够从分类标签中提取每个特征的相关性 根据特征与分类标签的相关性,将所谓的重要性权重应用于特征,并将这些权重应用于特征的

在一个机器学习项目中,我有一些关于公司客户的培训数据,其中包括20个输入功能和一个标签,表示客户对营销活动的反馈,其形式为是/否答案:

c1 => {f1_1,f2_1,...,f20_1} {Yes}

c2 => {f1_2,f2_2,...,f20_2} {No}
要求是预测每个客户对活动的接受概率

因此,训练数据有一个二元分类标签,而需求是一个回归预测

我能够从分类标签中提取每个特征的相关性

根据特征与分类标签的相关性,将所谓的重要性权重应用于特征,并将这些权重应用于特征的值,从而为每个客户产生类似于得分率的值,并将其用作回归标签,这有意义吗

c1_score = w1(f1_1) + w2(f2_1) + ... + w20(f20_1)

c2_score = w1(f1_2) + w2(f2_2) + ... + w20(f20_2)
如果没有,还有其他建议吗

要求是预测每种产品的“接受概率” 该活动的客户

因此,训练数据具有二进制分类标签,而 需求是一种回归预测

当然不是

你的任务肯定是一个分类

大多数分类器实际上不会产生“硬”标签
0/1
作为输出;默认情况下,它们产生的是概率,随后通过阈值操作将其转换为硬标签(例如,如果概率
p>0.5
,则声明
1
,否则声明
0

现在,有时,不管出于什么原因,业务问题需要的正是这些概率,而不是硬标签(您的案例就是这样一种情况,就像在中的绝大多数分类竞争一样);这当然不会改变方法中的任何内容(这仍然是一个分类问题),除了删除对最终阈值操作的要求之外——在任何情况下,这都不是问题统计部分的一部分,正如正确答案所指出的:

当您输出一个 新样本中每一类的概率。选择阈值 除此之外,将新观察值归类为1与0不是 统计数字再也没有了。它是决策组件的一部分

因此,您只需使用您选择的常用分类算法,如逻辑回归、随机林等,并使用相应的方法来获取概率,而不是类标签(例如,scikit learn中的逻辑回归方法,以及其他平台/算法的类似方法)

您还可以找到我的以下答案(以及其中的链接):

要求是预测每种产品的“接受概率” 该活动的客户

因此,训练数据具有二进制分类标签,而 需求是一种回归预测

当然不是

你的任务肯定是一个分类

大多数分类器实际上不会产生“硬”标签
0/1
作为输出;默认情况下,它们产生的是概率,随后通过阈值操作将其转换为硬标签(例如,如果概率
p>0.5
,则声明
1
,否则声明
0

现在,有时,不管出于什么原因,业务问题需要的正是这些概率,而不是硬标签(您的案例就是这样一种情况,就像在中的绝大多数分类竞争一样);这当然不会改变方法中的任何内容(这仍然是一个分类问题),除了删除对最终阈值操作的要求之外——在任何情况下,这都不是问题统计部分的一部分,正如正确答案所指出的:

当您输出一个 新样本中每一类的概率。选择阈值 除此之外,将新观察值归类为1与0不是 统计数字再也没有了。它是决策组件的一部分

因此,您只需使用您选择的常用分类算法,如逻辑回归、随机林等,并使用相应的方法来获取概率,而不是类标签(例如,scikit learn中的逻辑回归方法,以及其他平台/算法的类似方法)

您还可以找到我的以下答案(以及其中的链接):


使用逻辑回归。它给出了概率。使用逻辑回归。它给你提供了可能性。非常好的解释和非常好的参考来了解更多信息,非常感谢。非常好的解释和非常好的参考来了解更多信息,非常感谢。