Twitter提要的集群

Twitter提要的集群,twitter,machine-learning,data-mining,Twitter,Machine Learning,Data Mining,我对聚类是新手,之前刚刚实现了几个算法。 我需要根据推文的相似性对推文进行分类。 一种方法是只使用散列标签,但我认为它不会提供那么多信息。因此,应该对完整的推文进行分析 此外,我还在网上搜索聚类提要的算法 我遇到的一个是TF-IDF。我想知道有没有比TF-IDF更好的算法可以在几个小时内实现。另外,我还想了解一些关于twitter提要集群的信息来源 注:推文数量:10^5正如Anony Mousse在其上述评论中指出的,TF/IDF只是一种规范化措施,以确保在所有文档中过于流行的词语不会变得太重

我对聚类是新手,之前刚刚实现了几个算法。 我需要根据推文的相似性对推文进行分类。 一种方法是只使用散列标签,但我认为它不会提供那么多信息。因此,应该对完整的推文进行分析

此外,我还在网上搜索聚类提要的算法

我遇到的一个是TF-IDF。我想知道有没有比TF-IDF更好的算法可以在几个小时内实现。另外,我还想了解一些关于twitter提要集群的信息来源


注:推文数量:10^5

正如Anony Mousse在其上述评论中指出的,TF/IDF只是一种规范化措施,以确保在所有文档中过于流行的词语不会变得太重要

对于数据准备,如果您还没有这样做的话,我建议您阅读并阅读其中的第二部分(通过上面的链接链接)。从每条推文中获取数字向量非常重要。一般来说,在机器学习中,获取特征向量很重要,因为这样,您就可以对数据应用数学算法

现在,您已经为集合中的每条tweet提供了一个特征向量,事情变得有点简单了。我想到了两种聚类算法,每种算法都可以在几个小时内完成,而大量的测试可能需要一个周末

  • K-均值聚类
  • 单链接层次聚类
只有100000条tweet,您应该能够使用您最喜欢的语言(C++、Java、Python、MATLAB等)在一台计算机上实现这些算法(即,这不是大数据——不需要集群计算)。就个人而言,我认为实现K-Means聚类(我以前做过)比分层聚类(我以前也做过)更容易

编辑:仅当您标记了培训数据,即您的推文中有带标签的情感(快乐用户、ok ok、坏产品、愤怒用户、辱骂用户)时,请遵循以下评论,并且您想回答的问题是:给定一条新推文,它的情感是什么

为了更好地了解K近邻,您应该查看以下一个非常好的资源:


一般来说,对于其他两种算法,有足够的资源,维基百科文章是最好的开始方式。就我个人而言,我觉得K-最近邻(简写为K-NN)是这三种算法中最容易实现的一种,并且可以很快得到结果。

TF-IDF不是一种聚类算法。这是一个标准化/相似性度量。@Anony Mouse是的,我刚刚读过对不起。TF-IDF适用于推特用途吗?我不确定它的效果如何。推特很混乱,是你能找到的最糟糕的数据集。。。但是,垃圾输入垃圾输出:也许TF-IDF实际上和任何其他垃圾测量方法一样有效。@Anony Mouse的目的是,使用分层聚类算法是否合适,因为集群数量未知?谢谢,我有一个问题,即,你对集群数量有何建议。由于簇的数量未知,因此如何应用k均值聚类?什么是k近邻聚类???我还没有看过这样的出版物。。。大多数时候,人们指的不是聚类,而是k-means或kNN分类(如您链接的PDF中所示)…@AkashdeepSaluja发现聚类数本身就是一个活跃的研究领域。尝试查找“肘部方法”或检查k-means++算法。就我个人而言,我认为“肘部法”是快速且易于实现的。@anonymouse你是对的。我超越了自己。在写这篇文章的时候,我开始思考分类问题,自然想到了k-NN。k-NN不是一种无监督学习算法。我将编辑我的帖子。@OP:只是为了让您对“肘部方法”有更多的了解:您所做的基本上是将集群的数量从1变为N/2(N=#数据点)。对于每次运行,您计算F-统计量,并在百分比方差与#聚类图斜率急剧下降的地方选取k。问题:您可能无法准确猜测应该使用的集群的确切数量,因为识别这个“肘”是一个主观问题。但是对于k的值,你得到了一个非常接近的大概数字。链接: