Classification 复制数据是修正偏差的有效方法吗?

Classification 复制数据是修正偏差的有效方法吗?,classification,data-analysis,Classification,Data Analysis,我正在读一篇工程领域的论文。他们有一个带有标签的数据集,这是有偏见的。标记为A的实例比标记为B的实例多得多。他们希望训练分类器根据一些输入(状态)预测A或B标签 作者说: 为了更好地解决这个问题,将B状态的随机副本合并到数据集中,以平衡批次 我对数据分析了解不多,但我觉得这听起来不太正确。是吗?这种数据通常称为不平衡数据。作者所说的处理不平衡数据的方法是正确的,我们需要添加一些重复,以作为平衡数据(但不是随机添加,而是查看数据模式并添加数据)。有许多算法和方法来处理不平衡分类,只是通过这个它可能

我正在读一篇工程领域的论文。他们有一个带有标签的数据集,这是有偏见的。标记为A的实例比标记为B的实例多得多。他们希望训练分类器根据一些输入(状态)预测A或B标签

作者说:

为了更好地解决这个问题,将B状态的随机副本合并到数据集中,以平衡批次


我对数据分析了解不多,但我觉得这听起来不太正确。是吗?

这种数据通常称为不平衡数据。作者所说的处理不平衡数据的方法是正确的,我们需要添加一些重复,以作为平衡数据(但不是随机添加,而是查看数据模式并添加数据)。有许多算法和方法来处理不平衡分类,只是通过这个它可能会帮助你

谢谢!这就是我要找的。我想我的问题是我在寻找关键词“有偏见”而不是不平衡。