使用监督机器学习Python将推文分类

使用监督机器学习Python将推文分类,python,machine-learning,twitter,supervised-learning,Python,Machine Learning,Twitter,Supervised Learning,我有一大堆tweet,其中一小部分都是手动分配给主题类别的。类别用数字表示,从1到4,每个数字下面大约有20条属于该类别的推文。例如: Category Tweets 1 ...twenty tweets belonging to category one... 2 ...twenty tweets belonging to category two... 3 ...twenty tweets belonging t

我有一大堆tweet,其中一小部分都是手动分配给主题类别的。类别用数字表示,从1到4,每个数字下面大约有20条属于该类别的推文。例如:

Category     Tweets

   1         ...twenty tweets belonging to category one...

   2         ...twenty tweets belonging to category two...

   3         ...twenty tweets belonging to category three...

   4         ...twenty tweets belonging to category four...
我的目标是实现某种机器学习技术,特别是Python,能够将已经分类的tweet及其类别作为算法的训练数据,然后使用它所学到的知识,查看其余的数据集,每个类别返回大约100条推文,它认为这些推文大部分属于该类别


我已经环顾了各种算法,如监督LDA、标记LDA和K近邻,但我无法理解这些算法如何应用于我的任务。如果有人能把我和一些资源联系起来,我将不胜感激,因为我一直在为此发愁

如果我正确理解了您的问题,那么您有一小部分标记数据,您希望对其进行算法训练,然后希望在一大组数据上使用经过训练的算法,以获得每个类别的最佳100条推文

如果是这种情况,逻辑回归可能是有用的,因为它是相当成功的文本分类。此外,它还将为您提供每一条tweet出现在4个类中的概率

对于eg tweet 1,结果如下[0.4,0.3,0.2,0.1]。这表明tweet 1属于类别1。但是,您可以将这些概率存储在单独的列表中,然后对它们进行排序,以获得前100名。

如果您想使其具有可伸缩性,我建议您使用pyspark库,因为您已经熟悉python。这里有一个方便的教程

事实上,这个问题“太宽泛了”。我建议您检查文本分类的基本朴素贝叶斯(使用多项式模型)是否符合您的要求,以此为基准,然后查看更复杂的模型,最后再提出更具体的问题。