使用监督机器学习Python将推文分类_Python_Machine Learning_Twitter_Supervised Learning

使用监督机器学习Python将推文分类

python machine-learning twitter

使用监督机器学习Python将推文分类,python,machine-learning,twitter,supervised-learning,Python,Machine Learning,Twitter,Supervised Learning,我有一大堆tweet，其中一小部分都是手动分配给主题类别的。类别用数字表示，从1到4，每个数字下面大约有20条属于该类别的推文。例如： Category Tweets 1 ...twenty tweets belonging to category one... 2 ...twenty tweets belonging to category two... 3 ...twenty tweets belonging t

我有一大堆tweet，其中一小部分都是手动分配给主题类别的。类别用数字表示，从1到4，每个数字下面大约有20条属于该类别的推文。例如：

Category     Tweets

   1         ...twenty tweets belonging to category one...

   2         ...twenty tweets belonging to category two...

   3         ...twenty tweets belonging to category three...

   4         ...twenty tweets belonging to category four...

我的目标是实现某种机器学习技术，特别是Python，能够将已经分类的tweet及其类别作为算法的训练数据，然后使用它所学到的知识，查看其余的数据集，每个类别返回大约100条推文，它认为这些推文大部分属于该类别

我已经环顾了各种算法，如监督LDA、标记LDA和K近邻，但我无法理解这些算法如何应用于我的任务。如果有人能把我和一些资源联系起来，我将不胜感激，因为我一直在为此发愁

如果我正确理解了您的问题，那么您有一小部分标记数据，您希望对其进行算法训练，然后希望在一大组数据上使用经过训练的算法，以获得每个类别的最佳100条推文

如果是这种情况，逻辑回归可能是有用的，因为它是相当成功的文本分类。此外，它还将为您提供每一条tweet出现在4个类中的概率

对于eg tweet 1，结果如下[0.4,0.3,0.2,0.1]。这表明tweet 1属于类别1。但是，您可以将这些概率存储在单独的列表中，然后对它们进行排序，以获得前100名。

如果您想使其具有可伸缩性，我建议您使用pyspark库，因为您已经熟悉python。这里有一个方便的教程

事实上，这个问题“太宽泛了”。我建议您检查文本分类的基本朴素贝叶斯（使用多项式模型）是否符合您的要求，以此为基准，然后查看更复杂的模型，最后再提出更具体的问题。