Machine learning 机器学习-支持向量机_Machine Learning_Svm

Machine learning 机器学习-支持向量机

machine-learning

Machine learning 机器学习-支持向量机,machine-learning,svm,Machine Learning,Svm,我遇到了一个SVM示例，但我不明白。如果有人能解释一下这个预测是如何运作的，我将不胜感激。请参见以下说明：数据集具有10000个观察值5个属性（萼片宽度，萼片长度，花瓣宽度，花瓣长度，标签）。如果标签属于I.setosa类，则标签为positive；如果标签属于其他类，则标签为negative 已知结果的6000个观察值（即，它们属于i.setosa类，因此标签属性为正值）。剩余4000的标签未知，因此假定标签为负数。6000个观察值和2500个从剩余的4000个中随机选择的观察值构成了10倍

我遇到了一个SVM示例，但我不明白。如果有人能解释一下这个预测是如何运作的，我将不胜感激。请参见以下说明：

数据集具有10000个观察值5个属性（
萼片宽度，萼片长度，花瓣宽度，花瓣长度，标签）。如果标签属于I.setosa 类，则标签为positive ；如果标签属于其他类，则标签为negative 已知结果的6000个观察值（即，它们属于i.setosa 类，因此标签属性为正值）。剩余4000的标签未知，因此假定标签为负数。6000个观察值和2500个从剩余的4000个中随机选择的观察值构成了10倍交叉验证的集合。然后使用SVM（10倍交叉验证）对8500个观察值进行机器学习，并绘制ROC 我们在预测什么？该集合有6000个观测值，其值已知。剩余的2500如何获得负面标签？当使用支持向量机时，一些正的观测值得到负的预测。这个预言对我来说毫无意义。为什么那些1500个观察值被排除在外我希望我的解释清楚。如果我没有解释清楚，请告诉我。我认为这是一个语义问题：您将4000个样本集称为“未知”和“否定”——其中哪一个适用是关键区别如果4000个样本的标签确实未知，那么我将使用 6000个贴有标签的样品[c.f.验证如下]。然后，通过测试N=4000的集合来生成预测，以评估它们是否属于setosa类相反，如果我们有6000个setosa和4000个（已知）非setosa，我们可以构造一个二进制文件基于此数据的分类器[c.f.验证如下]，然后使用它预测setosa与non 任何其他可用的无标签数据验证：通常，作为模型构建过程的一部分，您将只获取模型的一个子集培训数据并使用它配置模型。对于未使用的子集，将模型应用于数据（忽略标签），并将模型预测的内容与真实标签进行比较，以评估错误率。这适用于一级和二级以上两类情况小结：如果您的所有数据都有标签，那么作为模型验证过程的一部分，通常仍会对其中的一个子集进行预测（忽略已知标签）。我认为这是一个语义问题：您将4000个样本集称为“未知”和“否定”--以下哪一项适用是关键区别如果4000个样本的标签确实未知，那么我将使用 6000个贴有标签的样品[c.f.验证如下]。然后，通过测试N=4000的集合来生成预测，以评估它们是否属于setosa类相反，如果我们有6000个setosa和4000个（已知）非setosa，我们可以构造一个二进制文件基于此数据的分类器[c.f.验证如下]，然后使用它预测setosa与non 任何其他可用的无标签数据验证：通常，作为模型构建过程的一部分，您将只获取模型的一个子集培训数据并使用它配置模型。对于未使用的子集，将模型应用于数据（忽略标签），并将模型预测的内容与真实标签进行比较，以评估错误率。这适用于一级和二级以上两类情况小结：如果您的所有数据都有标签，那么通常仍会对其中的一个子集进行预测（忽略已知标签），作为模型验证过程的一部分。您的SVM分类器经过训练，可以判断新（未知）实例是否为I.Setosa的实例。换句话说，您正在预测新的未标记实例是否为I.Setosa 您发现的结果分类不正确，可能是因为您的培训数据中正面案例比负面案例多得多。此外，通常会有一些误差总结：您的SVM分类器学习了如何识别I.Setosa实例，但是，它提供的非I.Setosa实例太少，这可能会使您得到一个有偏差的模型。您的SVM分类器经过训练，可以判断新（未知）实例是否是I.Setosa实例。换句话说，您正在预测新的未标记实例是否为I.Setosa 您发现的结果分类不正确，可能是因为您的培训数据中正面案例比负面案例多得多。此外，通常会有一些误差总结：你的SVM分类器学会了如何识别I.Setosa实例，但是，它提供的非I.Setosa实例太少，这可能会让你得到一个有偏见的模型。为什么不发布SVM分析的来源（数据集本身是经典的，）我没有在网上遇到这个示例。这只是在讨论支持向量机时出现的一个例子。为什么不发布支持向量机分析的来源（数据集本身是经典的，）我在网上没有遇到这个例子。这只是在讨论支持向量机时出现的一个例子。谢谢！准确地回答了我的要求，非常感谢戴夫！非常感谢。准确地回答了我要找的，