Machine learning 我应该如何使用班级比例大的数据教授机器学习算法？（支持向量机）_Machine Learning_Scikit Learn_Svm_Supervised Learning

Machine learning 我应该如何使用班级比例大的数据教授机器学习算法？（支持向量机）

machine-learning scikit-learn

Machine learning 我应该如何使用班级比例大的数据教授机器学习算法？（支持向量机）,machine-learning,scikit-learn,svm,supervised-learning,Machine Learning,Scikit Learn,Svm,Supervised Learning,我试图用看到横幅的人点击和转换的数据来教我的SVM算法。主要的问题是点击量占所有数据的0.2%左右，所以点击量的比例很大。当我在测试阶段使用简单的SVM时，它总是只预测“查看”类，而从不“点击”或“转换”。平均而言，它给出了99.8%的正确答案（因为比例不均衡），但如果你选中“点击”或“转换”选项，它给出的预测正确率为0%。如何调整SVM算法（或选择另一种算法）以考虑不均衡性？这里最基本的方法是使用所谓的“类权重方案”——在经典SVM公式中，有一个C参数用于控制分类错误计数。它可以分别更改为用于

我试图用看到横幅的人点击和转换的数据来教我的SVM算法。主要的问题是点击量占所有数据的0.2%左右，所以点击量的比例很大。当我在测试阶段使用简单的SVM时，它总是只预测“查看”类，而从不“点击”或“转换”。平均而言，它给出了99.8%的正确答案（因为比例不均衡），但如果你选中“点击”或“转换”选项，它给出的预测正确率为0%。如何调整SVM算法（或选择另一种算法）以考虑不均衡性？

这里最基本的方法是使用所谓的“类权重方案”——在经典SVM公式中，有一个

参数用于控制分类错误计数。它可以分别更改为用于1级和2级的

C1

和

C2

参数。对于给定的

，最常见的

C1

和

C2

选择是

C1 = C / n1
C2 = C / n2

其中，

n1

和

n2

分别为1级和2级尺寸。因此，你“惩罚”SVM错误分类频率较低的类要比错误分类最常见的类困难得多

许多现有库（如libSVM）都支持使用类权重参数的这种机制

示例使用python和sklearn

print __doc__

import numpy as np
import pylab as pl
from sklearn import svm

# we create 40 separable points
rng = np.random.RandomState(0)
n_samples_1 = 1000
n_samples_2 = 100
X = np.r_[1.5 * rng.randn(n_samples_1, 2),
          0.5 * rng.randn(n_samples_2, 2) + [2, 2]]
y = [0] * (n_samples_1) + [1] * (n_samples_2)

# fit the model and get the separating hyperplane
clf = svm.SVC(kernel='linear', C=1.0)
clf.fit(X, y)

w = clf.coef_[0]
a = -w[0] / w[1]
xx = np.linspace(-5, 5)
yy = a * xx - clf.intercept_[0] / w[1]


# get the separating hyperplane using weighted classes
wclf = svm.SVC(kernel='linear', class_weight={1: 10})
wclf.fit(X, y)

ww = wclf.coef_[0]
wa = -ww[0] / ww[1]
wyy = wa * xx - wclf.intercept_[0] / ww[1]

# plot separating hyperplanes and samples
h0 = pl.plot(xx, yy, 'k-', label='no weights')
h1 = pl.plot(xx, wyy, 'k--', label='with weights')
pl.scatter(X[:, 0], X[:, 1], c=y, cmap=pl.cm.Paired)
pl.legend()

pl.axis('tight')
pl.show()

特别是，在sklearn中，您只需通过设置

class\u weight='auto'

打开自动加权

本文介绍了各种技术。一种简单（但对SVM来说非常糟糕的方法）就是复制少数类，直到达到平衡：

向上抽样是少数群体的一种选择吗？你能告诉我更多关于向上抽样的意思吗？非常感谢，这是我正在寻找的。我希望我有15分投票支持这个答案：）我很确定你仍然可以选中“接受答案”选项：）只是为了完整性-复制少数类不应该在SVM中使用。这相当于使用班级权重，同时在训练（和测试）时间方面完全没有效率。