Class 如何处理用于机器学习的高度不平衡数据集(23条记录中的22条)

Class 如何处理用于机器学习的高度不平衡数据集(23条记录中的22条),class,model,frequency,Class,Model,Frequency,我有一个客户数据集,他们提供了货物的描述和货物所属的商品类别(共有23种商品类别)。在许多情况下,客户提供他们正在装运的商品的描述,但不提供其所属的一般商品类别。因此,我需要构建一个ML模型来填充缺少商品类信息的记录 有一个问题:当我对记录进行频率计数时,它是高度不平衡的——衣服几乎占所有记录的一半。无论我从哪个时间段提取数据,不平衡都会存在。见截图 当你遇到像我这样的情况,23条记录中有22条属于少数群体时,你有什么想法可以让数据集更加平衡,这样我就可以继续构建一个ML模型,而不会受到大量服装

我有一个客户数据集,他们提供了货物的描述和货物所属的商品类别(共有23种商品类别)。在许多情况下,客户提供他们正在装运的商品的描述,但不提供其所属的一般商品类别。因此,我需要构建一个ML模型来填充缺少商品类信息的记录

有一个问题:当我对记录进行频率计数时,它是高度不平衡的——衣服几乎占所有记录的一半。无论我从哪个时间段提取数据,不平衡都会存在。见截图

当你遇到像我这样的情况,23条记录中有22条属于少数群体时,你有什么想法可以让数据集更加平衡,这样我就可以继续构建一个ML模型,而不会受到大量服装和服饰的影响