Machine learning 以数字范围为标签的多标签分类

Machine learning 以数字范围为标签的多标签分类,machine-learning,scikit-learn,classification,corpus,multilabel-classification,Machine Learning,Scikit Learn,Classification,Corpus,Multilabel Classification,我有一个分类问题,我的标签是评级,0-100,增量为1(例如1、2、3、4等) 我有一个数据集,其中每一行都有一个名称、文本语料库和评分(0-100) 从文本语料库中,我试图提取可以输入分类器的特征,分类器每行输出相应的评级(0-100) 对于特征选择,我考虑从基本的单词包开始。然而,我的问题在于分类算法。sci kit learn中是否有支持此类问题的分类算法 我正在阅读,但是所描述的算法似乎支持完全离散的标签,而我有一组连续的标签 编辑:如果我把我的评级放进垃圾箱,情况会怎样?例如,我可以有

我有一个分类问题,我的标签是评级,0-100,增量为1(例如1、2、3、4等)

我有一个数据集,其中每一行都有一个名称、文本语料库和评分(0-100)

从文本语料库中,我试图提取可以输入分类器的特征,分类器每行输出相应的评级(0-100)

对于特征选择,我考虑从基本的单词包开始。然而,我的问题在于分类算法。sci kit learn中是否有支持此类问题的分类算法

我正在阅读,但是所描述的算法似乎支持完全离散的标签,而我有一组连续的标签


编辑:如果我把我的评级放进垃圾箱,情况会怎样?例如,我可以有10个标签,每个标签1-10。

您可以使用将一个1:100的特征转换为100个二进制特征,对应于间隔[1..100]的每个值。然后,您将有100个标签并学习一个多类分类器


不过,我建议用回归代替。

你可以用多元回归代替分类。U可以从文本语料库中聚类出n-gram特征,形成一个字典,并使用它形成一个特征集。使用此功能集,训练回归模型,其中输出可以是连续值。你可以对输出实数进行四舍五入,得到1-100的离散标签

如果你承认你的类是连续的,为什么不使用回归来代替呢?啊,我不熟悉回归,它似乎是这个问题的自然解决方案?是的,当你的目标变量是某种连续值时,偏差并不重要(可以预测36而不是37,但不能预测90而不是11)。你真正想做的是将预测错误值的概率降至最低,但将预测距离值的概率降至最低。这就是回归算法的用途。任何以回归器结尾的算法都会起作用。啊,看来多元回归确实是一个更自然的解决方案。scikit会学习回归吗n注意这一点?我假设逻辑回归是一种分类算法,而不是您所指的。是的,逻辑回归是一种分类算法。您可以尝试线性回归、岭回归或随机森林回归。查看scikit-learn.org/stable/modules/linear_model.html了解线性和多项式回归。u mi我们必须尝试使用不同的多项式模型,才能找到最适合你的模型。我认为你应该先从线性模型开始,然后再尝试其他多项式变量。另一个建议是,如果这不符合我们的需要,也可以寻找回归林。应用OneHotEncoder可以实现什么?你可以将0-100直接用于scikit学习中的任何分类器。