Machine learning 当培训数据有分类标签，但所需任务是概率时，该怎么办？_Machine Learning_Classification_Regression

Machine learning 当培训数据有分类标签，但所需任务是概率时，该怎么办？

machine-learning

Machine learning 当培训数据有分类标签，但所需任务是概率时，该怎么办？,machine-learning,classification,regression,Machine Learning,Classification,Regression,在一个机器学习项目中，我有一些关于公司客户的培训数据，其中包括20个输入功能和一个标签，表示客户对营销活动的反馈，其形式为是/否答案： c1 => {f1_1,f2_1,...,f20_1} {Yes} c2 => {f1_2,f2_2,...,f20_2} {No} 要求是预测每个客户对活动的接受概率因此，训练数据有一个二元分类标签，而需求是一个回归预测我能够从分类标签中提取每个特征的相关性根据特征与分类标签的相关性，将所谓的重要性权重应用于特征，并将这些权重应用于特征的

在一个机器学习项目中，我有一些关于公司客户的培训数据，其中包括20个输入功能和一个标签，表示客户对营销活动的反馈，其形式为是/否答案：

c1 => {f1_1,f2_1,...,f20_1} {Yes} c2 => {f1_2,f2_2,...,f20_2} {No}
要求是预测每个客户对活动的接受概率
因此，训练数据有一个二元分类标签，而需求是一个回归预测
我能够从分类标签中提取每个特征的相关性
根据特征与分类标签的相关性，将所谓的重要性权重应用于特征，并将这些权重应用于特征的值，从而为每个客户产生类似于得分率的值，并将其用作回归标签，这有意义吗

c1_score = w1(f1_1) + w2(f2_1) + ... + w20(f20_1) c2_score = w1(f1_2) + w2(f2_2) + ... + w20(f20_2)
如果没有，还有其他建议吗
要求是预测每种产品的“接受概率” 该活动的客户
因此，训练数据具有二进制分类标签，而需求是一种回归预测
当然不是
你的任务肯定是一个分类
大多数分类器实际上不会产生“硬”标签
0/1
作为输出；默认情况下，它们产生的是概率，随后通过阈值操作将其转换为硬标签（例如，如果概率
p>0.5
，则声明
1
，否则声明
0
）
现在，有时，不管出于什么原因，业务问题需要的正是这些概率，而不是硬标签（您的案例就是这样一种情况，就像在中的绝大多数分类竞争一样）；这当然不会改变方法中的任何内容（这仍然是一个分类问题），除了删除对最终阈值操作的要求之外——在任何情况下，这都不是问题统计部分的一部分，正如正确答案所指出的：
当您输出一个新样本中每一类的概率。选择阈值除此之外，将新观察值归类为1与0不是统计数字再也没有了。它是决策组件的一部分
因此，您只需使用您选择的常用分类算法，如逻辑回归、随机林等，并使用相应的方法来获取概率，而不是类标签（例如，scikit learn中的逻辑回归方法，以及其他平台/算法的类似方法）
您还可以找到我的以下答案（以及其中的链接）：

要求是预测每种产品的“接受概率” 该活动的客户
因此，训练数据具有二进制分类标签，而需求是一种回归预测
当然不是
你的任务肯定是一个分类
大多数分类器实际上不会产生“硬”标签
0/1
作为输出；默认情况下，它们产生的是概率，随后通过阈值操作将其转换为硬标签（例如，如果概率
p>0.5
，则声明
1
，否则声明
0
）
现在，有时，不管出于什么原因，业务问题需要的正是这些概率，而不是硬标签（您的案例就是这样一种情况，就像在中的绝大多数分类竞争一样）；这当然不会改变方法中的任何内容（这仍然是一个分类问题），除了删除对最终阈值操作的要求之外——在任何情况下，这都不是问题统计部分的一部分，正如正确答案所指出的：
当您输出一个新样本中每一类的概率。选择阈值除此之外，将新观察值归类为1与0不是统计数字再也没有了。它是决策组件的一部分
因此，您只需使用您选择的常用分类算法，如逻辑回归、随机林等，并使用相应的方法来获取概率，而不是类标签（例如，scikit learn中的逻辑回归方法，以及其他平台/算法的类似方法）
您还可以找到我的以下答案（以及其中的链接）：

使用逻辑回归。它给出了概率。使用逻辑回归。它给你提供了可能性。非常好的解释和非常好的参考来了解更多信息，非常感谢。非常好的解释和非常好的参考来了解更多信息，非常感谢。