Machine learning 罕见事件的ML分类问题总是预测0

Machine learning 罕见事件的ML分类问题总是预测0,machine-learning,classification,automl,Machine Learning,Classification,Automl,我有一个ML问题。我有一个机器学习分类任务,其中分类为-1、0或1。实际上,绝大多数情况下正确的分类是0,大约1%的情况下,答案是-1或1 当进行训练时(我使用auto_ml,但我认为这是一个普遍的问题),我发现我的模型决定,通过每次预测0,它可以获得99%的准确率 这是已知的现象吗?除了提出更多的分类,我还能做些什么来解决这个问题吗?也许是把0分成不同类的东西 任何关于下一步阅读内容的建议或指点都将不胜感激 谢谢。您应该更深入地查看数据集。看起来,您的数据集不平衡。可能的解决办法: 尝试平衡

我有一个ML问题。我有一个机器学习分类任务,其中分类为-1、0或1。实际上,绝大多数情况下正确的分类是0,大约1%的情况下,答案是-1或1

当进行训练时(我使用auto_ml,但我认为这是一个普遍的问题),我发现我的模型决定,通过每次预测0,它可以获得99%的准确率

这是已知的现象吗?除了提出更多的分类,我还能做些什么来解决这个问题吗?也许是把0分成不同类的东西

任何关于下一步阅读内容的建议或指点都将不胜感激


谢谢。

您应该更深入地查看数据集。看起来,您的数据集不平衡。可能的解决办法:

  • 尝试平衡数据集-使用标签1和-1添加更多数据,或使用标签0减少行数
  • 如果无法使数据集保持平衡,请尝试更改方法。您可以假设标签1和-1是异常值,并尝试解决查找异常值的问题。以下是如何使用库scikit learn处理异常值
是的,ML可能是懒惰的;-)


你可以试着在你的训练集中加入更多的罕见病例。不过,你用了“事件”这个词,这让我想知道你是否在做某种时间序列分析——这是某种循环网络吗?如果是这样的话,用更多的罕见事件进行训练可能是不现实的。

您刚刚偶然发现了一个班级不平衡的问题;谷歌和开始挖掘(这是一个完整的子领域)。。。