Machine learning 一类占主导地位的分类问题的技巧？_Machine Learning_Classification_Detection

Machine learning 一类占主导地位的分类问题的技巧？

machine-learning

Machine learning 一类占主导地位的分类问题的技巧？,machine-learning,classification,detection,Machine Learning,Classification,Detection,假设您有两个类A和B，您需要区分它们。通常，我只是在数据上训练一个普通的分类器（如逻辑回归、backprop-net），然后用它来完成。但是我注意到A比B发生的频率高几个数量级！是否应按原样向分类器提供数据分布，或对其进行更改以使类的频率相同？还是更剧烈的变化会有所帮助？我想这个案例以前已经被研究过很多次了（例如人脸检测），但我不太清楚这些技术与常规的旧分类有多大的不同。有很多方法可以处理所谓的“不平衡数据集”，例如过采样、自定义成本矩阵和类优先级我通常倾向于保持问题的原样，但一定要对性能进行

假设您有两个类A和B，您需要区分它们。通常，我只是在数据上训练一个普通的分类器（如逻辑回归、backprop-net），然后用它来完成。但是我注意到A比B发生的频率高几个数量级！是否应按原样向分类器提供数据分布，或对其进行更改以使类的频率相同？还是更剧烈的变化会有所帮助？我想这个案例以前已经被研究过很多次了（例如人脸检测），但我不太清楚这些技术与常规的旧分类有多大的不同。

有很多方法可以处理所谓的“不平衡数据集”，例如过采样、自定义成本矩阵和类优先级

我通常倾向于保持问题的原样，但一定要对性能进行分类研究。例如，如果一个分类器在包含两个类的数据集上出现20%的错误，其中一个类仅占观察值的25%，那么您需要使用类错误来判断它是否总体上做得很好，或者只是忽略了小类

一个很好的介绍可以在第40章中找到。（注意，我认为通过后一个链接获得的pdf是公开的，但很难从我工作的大学网络中分辨出来。）