Confusion matrix 对验证数据使用SMOTE(不平衡)

Confusion matrix 对验证数据使用SMOTE(不平衡),confusion-matrix,imbalanced-data,smote,Confusion Matrix,Imbalanced Data,Smote,我有一个不平衡的数据集——虽然不是很糟糕(850-class 1和450-class 2)。然后,我将其拆分(80%用于培训,20%用于验证)。我在验证中使用了SMOTE技术,所以两个类的分布是相等的(50%-50%) 我的理解是,我不应该在不平衡的验证集(20%)上应用SMOTE,因为这会在解释矩阵时引起问题(例如准确性),所以我需要保留20%的偏差(不平衡)-这是我不确定的 我是否应该继续将我的验证培训集修改为50%到50%(只需随机删除大多数样本) “如果您对训练数据进行过采样,以更改训练

我有一个不平衡的数据集——虽然不是很糟糕(850-class 1和450-class 2)。然后,我将其拆分(80%用于培训,20%用于验证)。我在验证中使用了SMOTE技术,所以两个类的分布是相等的(50%-50%)

我的理解是,我不应该在不平衡的验证集(20%)上应用SMOTE,因为这会在解释矩阵时引起问题(例如准确性),所以我需要保留20%的偏差(不平衡)-这是我不确定的

我是否应该继续将我的验证培训集修改为50%到50%(只需随机删除大多数样本)

“如果您对训练数据进行过采样,以更改训练集中的相对类频率,那么您是在暗示分类器希望验证集具有相同的类频率”。这是它在一个旧线程中所说的