Python 多标签分类

Python 多标签分类,python,machine-learning,deep-learning,text-classification,Python,Machine Learning,Deep Learning,Text Classification,我有大约1000篇与科技有关的新闻文章。我需要训练一个分类器来预测每篇文章的3(计算机科学、电子、电气)置信度分数。 每个分数代表文章属于每个领域的程度。 置信度得分将是介于0和1之间的值 但是数据集没有训练标签 我如何从这里开始?我需要什么样的数据? 如何训练这样的模型?因此,这不是分类问题。 只要你没有任何标签,它是无人监管的 您可以做的是查看K-Means(无监督机器学习算法),它允许您将数据聚类到预定义数量的聚类中(这里是3个): 但你没有任何措施来验证“基本事实” 如果你真的想更进一

我有大约1000篇与科技有关的新闻文章。我需要训练一个分类器来预测每篇文章的3(计算机科学、电子、电气)置信度分数。 每个分数代表文章属于每个领域的程度。 置信度得分将是介于0和1之间的值

但是数据集没有训练标签

我如何从这里开始?我需要什么样的数据?
如何训练这样的模型?

因此,这不是分类问题。 只要你没有任何标签,它是无人监管的

您可以做的是查看K-Means(无监督机器学习算法),它允许您将数据聚类到预定义数量的聚类中(这里是3个):

但你没有任何措施来验证“基本事实”

如果你真的想更进一步,你可以尝试自己给这些文章贴标签(比如说计算机科学、电子和电气),并尝试一些有监督的算法(使用scikit learn)/神经网络(使用tensorflow)

其思想是将输入数据矢量化(您可以查看TF-IDF),然后尝试任何有监督的模型

这就是NLP。你也有可以帮助你做到这一点的库

NLTK和Spacy是一个良好的开端:


你的主要想法并不十分清楚,但文章通常都有标签或类别,你可以用它们作为分类标签


人类非常擅长文章标签

很好的技术概述hanks@prosti:)