Machine learning 以数字范围为标签的多标签分类_Machine Learning_Scikit Learn_Classification_Corpus_Multilabel Classification

Machine learning 以数字范围为标签的多标签分类

machine-learning scikit-learn

Machine learning 以数字范围为标签的多标签分类,machine-learning,scikit-learn,classification,corpus,multilabel-classification,Machine Learning,Scikit Learn,Classification,Corpus,Multilabel Classification,我有一个分类问题，我的标签是评级，0-100，增量为1（例如1、2、3、4等）我有一个数据集，其中每一行都有一个名称、文本语料库和评分（0-100）从文本语料库中，我试图提取可以输入分类器的特征，分类器每行输出相应的评级（0-100）对于特征选择，我考虑从基本的单词包开始。然而，我的问题在于分类算法。sci kit learn中是否有支持此类问题的分类算法我正在阅读，但是所描述的算法似乎支持完全离散的标签，而我有一组连续的标签编辑：如果我把我的评级放进垃圾箱，情况会怎样？例如，我可以有

我有一个分类问题，我的标签是评级，0-100，增量为1（例如1、2、3、4等）

我有一个数据集，其中每一行都有一个名称、文本语料库和评分（0-100）

从文本语料库中，我试图提取可以输入分类器的特征，分类器每行输出相应的评级（0-100）

对于特征选择，我考虑从基本的单词包开始。然而，我的问题在于分类算法。sci kit learn中是否有支持此类问题的分类算法

我正在阅读，但是所描述的算法似乎支持完全离散的标签，而我有一组连续的标签

编辑：如果我把我的评级放进垃圾箱，情况会怎样？例如，我可以有10个标签，每个标签1-10。

您可以使用将一个1:100的特征转换为100个二进制特征，对应于间隔[1..100]的每个值。然后，您将有100个标签并学习一个多类分类器

不过，我建议用回归代替。

你可以用多元回归代替分类。U可以从文本语料库中聚类出n-gram特征，形成一个字典，并使用它形成一个特征集。使用此功能集，训练回归模型，其中输出可以是连续值。你可以对输出实数进行四舍五入，得到1-100的离散标签

如果你承认你的类是连续的，为什么不使用回归来代替呢？啊，我不熟悉回归，它似乎是这个问题的自然解决方案？是的，当你的目标变量是某种连续值时，偏差并不重要（可以预测36而不是37，但不能预测90而不是11）。你真正想做的是将预测错误值的概率降至最低，但将预测距离值的概率降至最低。这就是回归算法的用途。任何以回归器结尾的算法都会起作用。啊，看来多元回归确实是一个更自然的解决方案。scikit会学习回归吗n注意这一点？我假设逻辑回归是一种分类算法，而不是您所指的。是的，逻辑回归是一种分类算法。您可以尝试线性回归、岭回归或随机森林回归。查看scikit-learn.org/stable/modules/linear_model.html了解线性和多项式回归。u mi我们必须尝试使用不同的多项式模型，才能找到最适合你的模型。我认为你应该先从线性模型开始，然后再尝试其他多项式变量。另一个建议是，如果这不符合我们的需要，也可以寻找回归林。应用OneHotEncoder可以实现什么？你可以将0-100直接用于scikit学习中的任何分类器。