Machine learning 学习输出概率的二元分类器

Machine learning 学习输出概率的二元分类器,machine-learning,probability,svm,Machine Learning,Probability,Svm,一般来说,当目标是构建一个输出实例为正概率的二元分类器时,哪种机器学习最合适,在哪种情况下 特别是,具有Platt缩放的支持向量机似乎是一个很好的候选者,但我在网上看到有人使用内核逻辑回归或高斯过程来完成这项任务。 一种方法相对于其他方法是否有明显的优势/劣势 谢谢这里有很多选择——总的来说,没有一个会比另一个更好 对于对数据进行特定统计或结构假设的方法,检查数据是否遵循这些假设总是很好的 如果不知道您的具体情况,最好的答案是“尝试所有方法,看看哪些方法最有效”。列出您可以用于此一般任务的所有潜

一般来说,当目标是构建一个输出实例为正概率的二元分类器时,哪种机器学习最合适,在哪种情况下

特别是,具有Platt缩放的支持向量机似乎是一个很好的候选者,但我在网上看到有人使用内核逻辑回归或高斯过程来完成这项任务。 一种方法相对于其他方法是否有明显的优势/劣势


谢谢

这里有很多选择——总的来说,没有一个会比另一个更好

对于对数据进行特定统计或结构假设的方法,检查数据是否遵循这些假设总是很好的


如果不知道您的具体情况,最好的答案是“尝试所有方法,看看哪些方法最有效”。

列出您可以用于此一般任务的所有潜在算法几乎是不可能的。既然您提到了支持向量机(SVM),我将尝试详细介绍一下这些

SVM分类器从未真正输出实际概率。SVM分类器的输出是测试实例到特征空间中分离超平面的距离(这称为决策值)。默认情况下,根据此决策值的符号选择预测标签

Platt scaling基本上在SVM决策值之上拟合一个sigmoid,将其缩放到[0,1]的范围,然后可以将其解释为概率。类似的技术可以应用于产生实值输出的任何类型的分类器

支持向量机的一些明显优势包括:

  • 计算效率高的非线性分类器(训练实例数量为二次型)
  • 能够处理高维数据
  • 在无数领域都表现出了很好的表现
SVM的缺点包括:

  • 数据必须矢量化
  • 模型相对难以解释(与决策树或逻辑回归相比)
  • 处理名义上的特征可能很难
  • 缺少的值可能很难处理

当你在寻找合适的概率输出(包括置信区间)时,你可能需要考虑诸如Logistic回归之类的统计方法(核化版本也存在,但我建议从基本的东西开始)。p> 多谢各位。与本地统计方法(如逻辑回归)相比,在SVM上拟合sigmoid是否有任何具体的缺点?据我所知,没有。将到分离超平面的(缩放)距离解释为概率是有意义的。最后,逻辑回归的效果类似(=通过S形函数得到的标准回归结果)。