Machine learning 当真实世界中的实例数量较少时平衡分类数据集_Machine Learning_Nlp_Dataset

Machine learning 当真实世界中的实例数量较少时平衡分类数据集

machine-learning nlp

Machine learning 当真实世界中的实例数量较少时平衡分类数据集,machine-learning,nlp,dataset,Machine Learning,Nlp,Dataset,这个问题涉及基于一个概念的分类，即Android上的通知是否与未来支付（潜在的支付选项）相关。问题是在现实世界中，与其他通知相比，支付数据的分布非常小（至少我处理的那些通知在其他通知中的阳性率不到5%）。我的数据集应如何：付款和不付款数量相等？数据是否应该像现实世界一样不平衡，从而产生更多的拖欠如果不付款仅包括常见的错误分类（例如：已付款的账单将不会是正面的。这不是未来的事情，此类示例通常会因为“账单”、“已付款”等字样而被错误分类），或者应该包括所有其他通知类型吗（如音乐播放器、流媒体应用

这个问题涉及基于一个概念的分类，即Android上的

通知是否与未来支付（潜在的支付选项）相关。问题是在现实世界中，与其他通知相比，支付数据的分布非常小（至少我处理的那些通知在其他通知中的阳性率不到5%）。我的数据集应如何：
付款和不付款数量相等？数据是否应该像现实世界一样不平衡，从而产生更多的拖欠
如果不付款仅包括常见的错误分类（例如：已付款的账单
将不会是正面的。这不是未来的事情，此类示例通常会因为“账单”、“已付款”等字样而被错误分类），或者应该包括所有其他通知类型吗（如音乐播放器、流媒体应用程序、与支付无关的邮件和消息，以及其他各种通知）