Machine learning 机器学习-支持向量机

Machine learning 机器学习-支持向量机,machine-learning,svm,Machine Learning,Svm,我遇到了一个SVM示例,但我不明白。如果有人能解释一下这个预测是如何运作的,我将不胜感激。请参见以下说明: 数据集具有10000个观察值5个属性(萼片宽度,萼片长度,花瓣宽度,花瓣长度,标签)。如果标签属于I.setosa类,则标签为positive;如果标签属于其他类,则标签为negative 已知结果的6000个观察值(即,它们属于i.setosa类,因此标签属性为正值)。剩余4000的标签未知,因此假定标签为负数。6000个观察值和2500个从剩余的4000个中随机选择的观察值构成了10倍

我遇到了一个SVM示例,但我不明白。如果有人能解释一下这个预测是如何运作的,我将不胜感激。请参见以下说明:

数据集具有10000个观察值5个属性
萼片宽度
萼片长度
花瓣宽度
花瓣长度
标签
)。如果标签属于
I.setosa
类,则标签为
positive
;如果标签属于其他类,则标签为
negative

已知结果的6000个观察值(即,它们属于
i.setosa
类,因此标签属性为正值)。剩余4000的标签未知,因此假定标签为负数。6000个观察值2500个从剩余的4000个中随机选择的观察值构成了10倍交叉验证的集合。然后使用SVM(10倍交叉验证)对8500个观察值进行机器学习,并绘制ROC

我们在预测什么?该集合有6000个观测值,其值已知。剩余的2500如何获得负面标签?当使用支持向量机时,一些正的观测值得到负的预测。这个预言对我来说毫无意义。为什么那些1500个观察值被排除在外


我希望我的解释清楚。如果我没有解释清楚,请告诉我。

我认为这是一个语义问题:您将4000个样本集称为“未知”和“否定”——其中哪一个适用是关键区别

如果4000个样本的标签确实未知,那么我将使用 6000个贴有标签的样品[c.f.验证如下]。然后,通过测试N=4000的集合来生成预测,以评估它们是否属于setosa类

相反,如果我们有6000个setosa和4000个(已知)非setosa,我们可以构造一个二进制文件 基于此数据的分类器[c.f.验证如下],然后使用它预测setosa与non 任何其他可用的无标签数据

验证:通常,作为模型构建过程的一部分,您将只获取模型的一个子集 培训数据并使用它配置模型。对于未使用的子集,将模型应用于数据(忽略标签),并将模型预测的内容与真实标签进行比较,以评估错误率。这适用于一级和二级 以上两类情况


小结:如果您的所有数据都有标签,那么作为模型验证过程的一部分,通常仍会对其中的一个子集进行预测(忽略已知标签)。

我认为这是一个语义问题:您将4000个样本集称为“未知”和“否定”--以下哪一项适用是关键区别

如果4000个样本的标签确实未知,那么我将使用 6000个贴有标签的样品[c.f.验证如下]。然后,通过测试N=4000的集合来生成预测,以评估它们是否属于setosa类

相反,如果我们有6000个setosa和4000个(已知)非setosa,我们可以构造一个二进制文件 基于此数据的分类器[c.f.验证如下],然后使用它预测setosa与non 任何其他可用的无标签数据

验证:通常,作为模型构建过程的一部分,您将只获取模型的一个子集 培训数据并使用它配置模型。对于未使用的子集,将模型应用于数据(忽略标签),并将模型预测的内容与真实标签进行比较,以评估错误率。这适用于一级和二级 以上两类情况


小结:如果您的所有数据都有标签,那么通常仍会对其中的一个子集进行预测(忽略已知标签),作为模型验证过程的一部分。

您的SVM分类器经过训练,可以判断新(未知)实例是否为I.Setosa的实例。换句话说,您正在预测新的未标记实例是否为I.Setosa

您发现的结果分类不正确,可能是因为您的培训数据中正面案例比负面案例多得多。此外,通常会有一些误差


总结:您的SVM分类器学习了如何识别I.Setosa实例,但是,它提供的非I.Setosa实例太少,这可能会使您得到一个有偏差的模型。

您的SVM分类器经过训练,可以判断新(未知)实例是否是I.Setosa实例。换句话说,您正在预测新的未标记实例是否为I.Setosa

您发现的结果分类不正确,可能是因为您的培训数据中正面案例比负面案例多得多。此外,通常会有一些误差


总结:你的SVM分类器学会了如何识别I.Setosa实例,但是,它提供的非I.Setosa实例太少,这可能会让你得到一个有偏见的模型。

为什么不发布SVM分析的来源(数据集本身是经典的,)我没有在网上遇到这个示例。这只是在讨论支持向量机时出现的一个例子。为什么不发布支持向量机分析的来源(数据集本身是经典的,)我在网上没有遇到这个例子。这只是在讨论支持向量机时出现的一个例子。谢谢!准确地回答了我的要求,非常感谢戴夫!非常感谢。准确地回答了我要找的,