Machine learning 高度不平衡数据集中使用的阴性样本数量的影响（XGBoost）_Machine Learning_Xgboost

Machine learning 高度不平衡数据集中使用的阴性样本数量的影响（XGBoost）

machine-learning

Machine learning 高度不平衡数据集中使用的阴性样本数量的影响（XGBoost）,machine-learning,xgboost,Machine Learning,Xgboost,我试图在一个高度不平衡的数据集上使用XGBoost对一个分类器进行建模，正样本数量有限，负样本数量几乎无限。有没有可能过多的负样本（使数据集更加不平衡）会削弱模型的预测能力？除了运行时间外，是否有理由限制阴性样本的数量我知道应该解决这个问题的scale\u pos\u weight参数，但直觉告诉我，即使是这种方法也有其局限性直接回答您的问题：添加更多负面示例可能会降低经过训练的分类器的决策能力。对于否定类，选择最具代表性的例子，并放弃其余的从不平衡数据集中学习会影响分类器的预测能力甚至

我试图在一个高度不平衡的数据集上使用XGBoost对一个分类器进行建模，正样本数量有限，负样本数量几乎无限。有没有可能过多的负样本（使数据集更加不平衡）会削弱模型的预测能力？除了运行时间外，是否有理由限制阴性样本的数量

我知道应该解决这个问题的

scale\u pos\u weight

参数，但直觉告诉我，即使是这种方法也有其局限性

直接回答您的问题：添加更多负面示例可能会降低经过训练的分类器的决策能力。对于否定类，选择最具代表性的例子，并放弃其余的

从不平衡数据集中学习会影响分类器的预测能力甚至收敛能力。通常建议的策略是，每个班级都保持类似规模的培训示例。班级不平衡对学习的影响取决于决策空间的形状和班级之间边界的宽度。它们越宽，决策空间越简单，即使对于不平衡的数据集，训练也越成功

TL；DR

要快速了解不平衡学习的方法，我推荐以下两篇文章：

何海波教授（更科学）

有一个名为Python的软件包，其中包含大量的算法文档，我建议您深入查看。

谢谢！我应该补充一点，现实世界的数据也非常不平衡（每一个正数据可能有数百万个负数据）。我还需要努力获得一个平衡的数据集吗？不幸的是，分类器或训练过程并不关心真实世界的比率。如果你有，我将彻底探索我提供的链接，并尝试使用提出的算法。