Machine learning 学习输出概率的二元分类器_Machine Learning_Probability_Svm

Machine learning 学习输出概率的二元分类器

machine-learning

Machine learning 学习输出概率的二元分类器,machine-learning,probability,svm,Machine Learning,Probability,Svm,一般来说，当目标是构建一个输出实例为正概率的二元分类器时，哪种机器学习最合适，在哪种情况下特别是，具有Platt缩放的支持向量机似乎是一个很好的候选者，但我在网上看到有人使用内核逻辑回归或高斯过程来完成这项任务。一种方法相对于其他方法是否有明显的优势/劣势谢谢这里有很多选择——总的来说，没有一个会比另一个更好对于对数据进行特定统计或结构假设的方法，检查数据是否遵循这些假设总是很好的如果不知道您的具体情况，最好的答案是“尝试所有方法，看看哪些方法最有效”。列出您可以用于此一般任务的所有潜

一般来说，当目标是构建一个输出实例为正概率的二元分类器时，哪种机器学习最合适，在哪种情况下

特别是，具有Platt缩放的支持向量机似乎是一个很好的候选者，但我在网上看到有人使用内核逻辑回归或高斯过程来完成这项任务。一种方法相对于其他方法是否有明显的优势/劣势

谢谢

这里有很多选择——总的来说，没有一个会比另一个更好

对于对数据进行特定统计或结构假设的方法，检查数据是否遵循这些假设总是很好的

如果不知道您的具体情况，最好的答案是“尝试所有方法，看看哪些方法最有效”。

列出您可以用于此一般任务的所有潜在算法几乎是不可能的。既然您提到了支持向量机（SVM），我将尝试详细介绍一下这些

SVM分类器从未真正输出实际概率。SVM分类器的输出是测试实例到特征空间中分离超平面的距离（这称为决策值）。默认情况下，根据此决策值的符号选择预测标签

Platt scaling基本上在SVM决策值之上拟合一个sigmoid，将其缩放到[0,1]的范围，然后可以将其解释为概率。类似的技术可以应用于产生实值输出的任何类型的分类器

支持向量机的一些明显优势包括：

计算效率高的非线性分类器（训练实例数量为二次型）
能够处理高维数据
在无数领域都表现出了很好的表现

SVM的缺点包括：

数据必须矢量化
模型相对难以解释（与决策树或逻辑回归相比）
处理名义上的特征可能很难
缺少的值可能很难处理

当你在寻找合适的概率输出（包括置信区间）时，你可能需要考虑诸如Logistic回归之类的统计方法（核化版本也存在，但我建议从基本的东西开始）。p> 多谢各位。与本地统计方法（如逻辑回归）相比，在SVM上拟合sigmoid是否有任何具体的缺点？据我所知，没有。将到分离超平面的（缩放）距离解释为概率是有意义的。最后，逻辑回归的效果类似（=通过S形函数得到的标准回归结果）。