Machine learning 一类占主导地位的分类问题的技巧?

Machine learning 一类占主导地位的分类问题的技巧?,machine-learning,classification,detection,Machine Learning,Classification,Detection,假设您有两个类A和B,您需要区分它们。通常,我只是在数据上训练一个普通的分类器(如逻辑回归、backprop-net),然后用它来完成。但是我注意到A比B发生的频率高几个数量级!是否应按原样向分类器提供数据分布,或对其进行更改以使类的频率相同?还是更剧烈的变化会有所帮助?我想这个案例以前已经被研究过很多次了(例如人脸检测),但我不太清楚这些技术与常规的旧分类有多大的不同。有很多方法可以处理所谓的“不平衡数据集”,例如过采样、自定义成本矩阵和类优先级 我通常倾向于保持问题的原样,但一定要对性能进行

假设您有两个类A和B,您需要区分它们。通常,我只是在数据上训练一个普通的分类器(如逻辑回归、backprop-net),然后用它来完成。但是我注意到A比B发生的频率高几个数量级!是否应按原样向分类器提供数据分布,或对其进行更改以使类的频率相同?还是更剧烈的变化会有所帮助?我想这个案例以前已经被研究过很多次了(例如人脸检测),但我不太清楚这些技术与常规的旧分类有多大的不同。

有很多方法可以处理所谓的“不平衡数据集”,例如过采样、自定义成本矩阵和类优先级

我通常倾向于保持问题的原样,但一定要对性能进行分类研究。例如,如果一个分类器在包含两个类的数据集上出现20%的错误,其中一个类仅占观察值的25%,那么您需要使用类错误来判断它是否总体上做得很好,或者只是忽略了小类

一个很好的介绍可以在第40章中找到。(注意,我认为通过后一个链接获得的pdf是公开的,但很难从我工作的大学网络中分辨出来。)