Machine learning 交叉验证&x201C;平衡”;回归问题

Machine learning 交叉验证&x201C;平衡”;回归问题,machine-learning,regression,cross-validation,Machine Learning,Regression,Cross Validation,在给定的数据集中,分类问题可能表现出强烈的标签不平衡。这可以通过对特定的类权重属性权重进行二次抽样来克服,这允许至少在模型训练期间平衡标签分布。另一方面,分层将允许保持一定的标签分布,该分布在每个相应的折叠中 对于回归问题,这是通过标准库进行的,例如,scikit学习未定义。对于Scott Lowe的回归二次抽样,几乎没有什么方法可以涵盖,也没有一种写得很好的理论方法 我想知道为什么回归的标签平衡而不是分类问题在机器学习界很少受到关注?回归问题还表现出不同的特征,这些特征在数据收集环境中可能更容

在给定的数据集中,分类问题可能表现出强烈的标签不平衡。这可以通过对特定的类权重属性权重进行二次抽样来克服,这允许至少在模型训练期间平衡标签分布。另一方面,分层将允许保持一定的标签分布,该分布在每个相应的折叠中

对于回归问题,这是通过标准库进行的,例如,scikit学习未定义。对于Scott Lowe的回归二次抽样,几乎没有什么方法可以涵盖,也没有一种写得很好的理论方法


我想知道为什么回归的标签平衡而不是分类问题在机器学习界很少受到关注?回归问题还表现出不同的特征,这些特征在数据收集环境中可能更容易/更难获得。那么,是否有任何框架或论文可以进一步解决这个问题?

问题的复杂性在于回归的连续性。当你有分类时,很自然地把它们分成几个类,因为它们基本上已经分成了几个类:)现在,如果你有一个回归,分裂的可能性基本上是无限的,最重要的是,不可能知道什么是好的分裂。正如在您发送的文章中,您可能会应用排序或分数方法,但最终,您不知道它们在多大程度上是正确的。您还可以将其拆分为多个间隔。这就是堆栈库所做的。在文档中,它说:“对于连续目标变量overstock,使用基于仓位的分仓和分类拆分”。他们所做的是,首先将连续值分配给容器(类),然后对其应用分层

关于这方面的研究并不多,因为你所能想到的一切都是启发性的。但是,如果您可以合并一些领域知识,则可能会有例外。举个例子,假设你正试图通过一组特征来预测某些电磁波的频率。在这种情况下,您已经事先了解了波频率是如何分割的。()所以现在很自然地把它们按照波长分成连续的间隔,并进行回归分层。但除此之外,很难得出一概而论的结论


我个人从未遇到过这方面的研究。

我投票决定结束这个问题,因为它不是关于中定义的编程,而是关于ML理论和方法-请参阅机器学习中的介绍和说明。