Tensorflow 多类分类问题中的不平衡类_Tensorflow_Machine Learning_Keras_Deep Learning_Neural Network

Tensorflow 多类分类问题中的不平衡类

tensorflow machine-learning keras deep-learning neural-network

Tensorflow 多类分类问题中的不平衡类,tensorflow,machine-learning,keras,deep-learning,neural-network,Tensorflow,Machine Learning,Keras,Deep Learning,Neural Network,我正在尝试使用TensorFlow的DNNClassifier来解决我的多类（softmax）分类问题，其中包含4个不同的类。我有一个分布如下的不平衡数据集： 0级：14.8% 第一类：35.2% 第2类：27.8% 第3类：22.2% 如何为DNNClasifier的weight\u列为每个类分配权重？我知道如何编写代码，但我想知道每个类应该给出什么值。您可以尝试以下公式来平衡所有类： weight_for_class_X = total_samples_size / size_of_cl

我正在尝试使用TensorFlow的DNNClassifier来解决我的多类（softmax）分类问题，其中包含4个不同的类。我有一个分布如下的不平衡数据集：

0级：14.8%
第一类：35.2%
第2类：27.8%
第3类：22.2%

如何为DNNClasifier的

weight\u列

为每个类分配权重？我知道如何编写代码，但我想知道每个类应该给出什么值。

您可以尝试以下公式来平衡所有类：

weight_for_class_X = total_samples_size / size_of_class_X / num_classes

例如：

num_CLASS_0: 10000   
num_CLASS_1: 1000
num_CLASS_2: 100

wgt_for_0 = 11100 / 10000 / 3 = 0.37  
wgt_for_1 = 11100 / 1000 / 3 = 3.7
wgt_for_2 = 11100 / 100 / 3 = 37

# so after one epoch training the total weights of each class will be:
total_wgt_of_0 = 0.37 * 10000 = 3700
total_wgt_of_1 = 3.7 * 1000 = 3700
total_wgt_of_2 = 37 * 100 = 3700

对于非不平衡分类问题，有多种选择来建立权重。最常见的方法之一是直接使用序列中的类计数来估计样本权重。此选项很容易通过计算得到。“平衡”模式使用y值自动调整权重，使其与类别频率成反比

在下面的示例中，我们尝试将

compute\u sample\u weight

方法“合并”到DNNClassifier中。作为标签分发，我使用了问题中表达的相同内容

import numpy as np
import pandas as pd
import tensorflow as tf
from sklearn.utils.class_weight import compute_sample_weight

train_size = 1000
test_size = 200
columns = 30

## create train data
y_train = np.random.choice([0,1,2,3], train_size, p=[0.15, 0.35, 0.28, 0.22])
x_train = pd.DataFrame(np.random.uniform(0,1, (train_size,columns)).astype('float32'))
x_train.columns = [str(i) for i in range(columns)]

## create train weights
weight = compute_sample_weight(class_weight='balanced', y=y_train)
x_train['weight'] = weight.astype('float32')

## create test data
y_test = np.random.choice([0,1,2,3], test_size, p=[0.15, 0.35, 0.28, 0.22])
x_test = pd.DataFrame(np.random.uniform(0,1, (test_size,columns)).astype('float32'))
x_test.columns = [str(i) for i in range(columns)]

## create test weights
x_test['weight'] = np.ones(len(y_test)).astype('float32') ## set them all to 1

## utility functions to pass data to DNNClassifier
def train_input_fn():
    dataset = tf.data.Dataset.from_tensor_slices((dict(x_train), y_train))
    dataset = dataset.shuffle(1000).repeat().batch(10)
    return dataset

def eval_input_fn():
    dataset = tf.data.Dataset.from_tensor_slices((dict(x_test), y_test))
    return dataset.shuffle(1000).repeat().batch(10)

## define DNNClassifier
classifier = tf.estimator.DNNClassifier(
    feature_columns=[tf.feature_column.numeric_column(str(i), shape=[1]) for i in range(columns)],
    weight_column = tf.feature_column.numeric_column('weight'),
    hidden_units=[10],
    n_classes=4,
)

## train DNNClassifier
classifier.train(input_fn=lambda: train_input_fn(), steps=100)

## make evaluation
eval_results = classifier.evaluate(input_fn=eval_input_fn, steps=1)

考虑到我们的权重是作为目标函数构建的，我们必须在测试数据中将其设置为1，因为标签未知。

我强烈建议您使用欠采样（如果您有足够的数据这样做）或SMOTE过采样，在IMBREAND库中，您可以找到它

作为一名经验丰富的ML工程师，我可以说，任何“加权”方法都不会对您有效，XGBoost有一个称为scale\u pos\u weight的参数，或者您可以使用class\u weight=“balanced”的逻辑回归，但它们是非常不重要的，因为问题不在于估计器，而在于您的数据。因此，我强烈建议您使用数据，而不是分配权重