Machine learning 使用一个特征作为输入与使用它在SVM上构建多台机器

Machine learning 使用一个特征作为输入与使用它在SVM上构建多台机器,machine-learning,svm,Machine Learning,Svm,我是一名本科生,在我的毕业论文中,我使用支持向量机来预测一辆公交车到达其路线上的公交车站的时间。在做了大量的研究和阅读了一些论文之后,我仍然对如何为我的系统建模有一个关键的疑问 我们已经决定使用哪些功能,我们正在收集执行回归所需的数据,但让我们困惑的是使用某些功能作为SVM输入或基于这些功能构建独立机器的含义或后果 例如,在本文中,作者构建了4个用于预测公交车到达时间的支持向量机:一个用于晴天高峰时间、雨天高峰时间、晴天非高峰时间,最后一个用于非高峰时间和雨天 但在同一个子网站上,他们决定使用一

我是一名本科生,在我的毕业论文中,我使用支持向量机来预测一辆公交车到达其路线上的公交车站的时间。在做了大量的研究和阅读了一些论文之后,我仍然对如何为我的系统建模有一个关键的疑问

我们已经决定使用哪些功能,我们正在收集执行回归所需的数据,但让我们困惑的是使用某些功能作为SVM输入或基于这些功能构建独立机器的含义或后果

例如,在本文中,作者构建了4个用于预测公交车到达时间的支持向量机:一个用于晴天高峰时间、雨天高峰时间、晴天非高峰时间,最后一个用于非高峰时间和雨天

但在同一个子网站上,他们决定使用一个支持向量机,将天气状况和高峰/下班高峰时间作为输入,而不是像以前那样将其分解为4个支持向量机

我觉得这是一种更多关于经验的事情,所以如果有人知道什么时候选择这些方法,我想听听你们的意见


提前谢谢。

没有其他办法:你必须自己去发现。这就是为什么你要写这篇论文。没有人能从完美的解决方案开始。每个人都会犯错。你的问题并不容易,如果你从来没有做过类似的事情,你就不能说什么会起作用。尝试你在文献中发现的一切,比较结果,发展你自己的想法,

没有其他方法:你必须自己去发现。这就是为什么你要写这篇论文。没有人能从完美的解决方案开始。每个人都会犯错。你的问题并不容易,如果你从来没有做过类似的事情,你就不能说什么会起作用。尝试你在文献中找到的所有东西,比较结果,发展你自己的想法,

最重要的问题:数据是什么样的? 第二个问题:您希望哪种模型能够捕捉到这一点

因此,如果出于某种原因想要使用支持向量机,请记住它们的基本机制是线性的,并且只有通过合适的内核转换数据时才能捕获非线性现象

对于手头的特定问题,这意味着:

  • 你有理由相信你的问题是线性的(不可分离的)吗?只需使用一个线性支持向量机
  • 你有理由认为你的问题由几个线性子问题组成吗?对每个子问题使用线性支持向量机
  • 您的数据似乎是非线性分组的吗?尝试使用类似rbf内核的支持向量机

  • 当然,您可以直接插入并尝试,但检查上述内容可能会提高对问题的理解。

    最重要的问题:数据是什么样的? 第二个问题:您希望哪种模型能够捕捉到这一点

    因此,如果出于某种原因想要使用支持向量机,请记住它们的基本机制是线性的,并且只有通过合适的内核转换数据时才能捕获非线性现象

    对于手头的特定问题,这意味着:

  • 你有理由相信你的问题是线性的(不可分离的)吗?只需使用一个线性支持向量机
  • 你有理由认为你的问题由几个线性子问题组成吗?对每个子问题使用线性支持向量机
  • 您的数据似乎是非线性分组的吗?尝试使用类似rbf内核的支持向量机

  • 当然,您可以插入并尝试,但是检查上面的内容可能会增加对问题的理解。

    在您的特定问题中,我将选择单个SVM

    由于我的经验不是很丰富,我会考虑以下几个原因来解决几个问题: 1) 类太不同了,或者问题中有类和子类。 在我的例子中:显微镜图像中有几种类型的抗体,它们都可能是阳性或阴性的。因此,与其定义A_Pos,A_Neg,B_Pos,B_Neg。。。我首先确定图像是正的还是负的,然后在第二个SVM中确定类型

    2) 特征提取成本太高。如果您有课程组,这些课程可能会被识别为发烧特征。不必为一台机器提取所有特征,您可以首先只提取一小部分,如果需要(结果概率不够高),还可以提取更多特征

    3) 确定实例是否属于问题。制作一个包含一个类和所有训练集实例的模型。如果要分类的实例是异常值,请停止。否则,使用包含所有类的第二个SVM进行分类


    关键词是“级联SVM”

    在您的特定问题中,我会选择单个SVM

    由于我的经验不是很丰富,我会考虑以下几个原因来解决几个问题: 1) 类太不同了,或者问题中有类和子类。 在我的例子中:显微镜图像中有几种类型的抗体,它们都可能是阳性或阴性的。因此,与其定义A_Pos,A_Neg,B_Pos,B_Neg。。。我首先确定图像是正的还是负的,然后在第二个SVM中确定类型

    2) 特征提取成本太高。如果您有课程组,这些课程可能会被识别为发烧特征。不必为一台机器提取所有特征,您可以首先只提取一小部分,如果需要(结果概率不够高),还可以提取更多特征

    3) 确定实例是否属于问题。制作一个包含一个类和所有训练集实例的模型。如果要分类的实例是异常值,请停止。否则,使用包含所有类的第二个SVM进行分类


    关键词是“级联SVM”

    嗯……是的,我也这么认为。但我不打算找到一个完美的解决方案。我知道每种数据都有自己的特点和特点