Machine learning SMOTE后产生的结果可靠吗?

Machine learning SMOTE后产生的结果可靠吗?,machine-learning,weka,Machine Learning,Weka,我有一个扭曲的数据集,上面有推特推特和与之相关的情绪。积极情绪和消极情绪的比例大约为1:4(训练集)。当我在Weka上运行训练集(没有SOMTE)时,结果并不令人满意。所以我用SMOTE来平衡课程。之后我得到的结果要好得多。 我使用Libsvm进行分类 这种SMOTE技术生成的模型的可靠性如何? 对于这种不平衡的数据集,我们是否可以始终使用SMOTE? 我是ML和weka的新手,所以对这些事情不太了解。视情况而定。过采样和欠采样有许多优点和缺点,无论是随机的还是合成的。应通过比较培训和交叉验证或

我有一个扭曲的数据集,上面有推特推特和与之相关的情绪。积极情绪和消极情绪的比例大约为1:4(训练集)。当我在Weka上运行训练集(没有SOMTE)时,结果并不令人满意。所以我用SMOTE来平衡课程。之后我得到的结果要好得多。 我使用Libsvm进行分类

这种SMOTE技术生成的模型的可靠性如何? 对于这种不平衡的数据集,我们是否可以始终使用SMOTE?
我是ML和weka的新手,所以对这些事情不太了解。

视情况而定。过采样和欠采样有许多优点和缺点,无论是随机的还是合成的。应通过比较培训和交叉验证或测试错误来检查结果。通过绘制y轴的错误率和x轴的数据大小,也可以使用学习曲线。这样就可以检测出过于乐观的结果、泛化能力等。有时,我们可以得到好成绩,只是因为过度拟合。我用了SMOTE,效果很好。但后来我不得不检查我提到的流程,看看它有多好。对于类不平衡问题,您可能尝试的另一件事是保持数据集不变,然后应用一个成本敏感的学习者,该学习者将根据某些权重对FP和FN进行惩罚。此外,还可以对不平衡数据集应用常规算法,然后应用成本敏感评估,如成本曲线。这条曲线可以告诉您的模型,如果给它一个50-50平衡的数据集,它将如何执行