Machine learning 你对机器学习方法有什么建议,可以真正学会区分这两类吗?

Machine learning 你对机器学习方法有什么建议,可以真正学会区分这两类吗?,machine-learning,deep-learning,svm,Machine Learning,Deep Learning,Svm,我有一个重叠很多的数据集。到目前为止,我使用SVM的结果并不好。对于这两个数据集之间可能存在差异的模型,您是否有任何建议 通过插值其中一个类并预测另一个类,很容易拟合数据集。然而,这种方法的问题是,它不能很好地推广。你要问自己的问题是,如果你能根据一个点的属性预测它的类别。如果不是,那么每个ML算法也将无法做到这一点 那么,您可以做的唯一合理的事情就是为每个点收集更多的数据和属性。也许通过添加第三维度,您可以更轻松地分离数据。首先,您对良好结果的标准是什么?你使用了什么样的支持向量机?对于大多数

我有一个重叠很多的数据集。到目前为止,我使用SVM的结果并不好。对于这两个数据集之间可能存在差异的模型,您是否有任何建议


通过插值其中一个类并预测另一个类,很容易拟合数据集。然而,这种方法的问题是,它不能很好地推广。你要问自己的问题是,如果你能根据一个点的属性预测它的类别。如果不是,那么每个ML算法也将无法做到这一点


那么,您可以做的唯一合理的事情就是为每个点收集更多的数据和属性。也许通过添加第三维度,您可以更轻松地分离数据。

首先,您对良好结果的标准是什么?你使用了什么样的支持向量机?对于大多数好的概念来说,简单线性肯定会失败,但是一个严重卷积的高斯核可能会从图的上部区域的大量连续点中挖掘出一些东西

我建议你对你提供的数据进行一些基本的统计,看看它们是否真的像你想要的那样可分离。我建议先做T检验

如果您有其他维度,我强烈建议您使用它们。从你能处理的最大投入开始,然后减少主成分分析。在我们了解数据的完整形状和分布之前,识别有用算法的希望不大


也就是说,我会提出一个先发制人的建议,当你添加其他维度时,你可以研究光谱聚类算法。有些在密度方面很好,有些在连接性方面很好,而另一些在差距方面很关键。

如果数据重叠太多,两者应该属于同一类,但我们知道它们不是。因此,有一些特性或变量将这些数据点分为两类。尝试为数据添加更多功能

有时,仅仅将数据转换成不同的规模就可以有所帮助


这两个类不需要平均分布,因为扭曲的数据分布可以单独处理。

嗨,托马兹,非常感谢你的评论,我们可能有其他属性可以帮助分离这两个类。数据量是一个问题,这两个类也非常不平衡。我可以从它们的直方图中注意到它们的值有很多重叠,所以我认为没有任何方法能够将它们分开。如果你能预测的话,我对你的短语表示异议。机器学习和深度学习在一定程度上是为了找到人类大脑在合理时间内无法找到的区别,或者根本无法找到。尤其是图像的深度学习是指我们能够立即完成的任务。对象分类、NLP和语义分割只是三个例子。当然,我们不能在人工操作的范围内完成这项工作,但大多数ML任务仍然是由专家在合理的时间内完成的。对于Andrew Ng更深入的解释: