Machine learning 当真实世界中的实例数量较少时平衡分类数据集

Machine learning 当真实世界中的实例数量较少时平衡分类数据集,machine-learning,nlp,dataset,Machine Learning,Nlp,Dataset,这个问题涉及基于一个概念的分类,即Android上的通知是否与未来支付(潜在的支付选项)相关。问题是在现实世界中,与其他通知相比,支付数据的分布非常小(至少我处理的那些通知在其他通知中的阳性率不到5%)。我的数据集应如何: 付款和不付款数量相等?数据是否应该像现实世界一样不平衡,从而产生更多的拖欠 如果不付款仅包括常见的错误分类(例如:已付款的账单将不会是正面的。这不是未来的事情,此类示例通常会因为“账单”、“已付款”等字样而被错误分类),或者应该包括所有其他通知类型吗(如音乐播放器、流媒体应用

这个问题涉及基于一个概念的分类,即Android上的
通知是否与未来支付(潜在的支付选项)相关。问题是在现实世界中,与其他通知相比,支付数据的分布非常小(至少我处理的那些通知在其他通知中的阳性率不到5%)。我的数据集应如何:

  • 付款和不付款数量相等?数据是否应该像现实世界一样不平衡,从而产生更多的拖欠
  • 如果不付款仅包括常见的错误分类(例如:
    已付款的账单
    将不会是正面的。这不是未来的事情,此类示例通常会因为“账单”、“已付款”等字样而被错误分类),或者应该包括所有其他通知类型吗(如音乐播放器、流媒体应用程序、与支付无关的邮件和消息,以及其他各种通知)