Twitter提要的集群_Twitter_Machine Learning_Data Mining

Twitter提要的集群

twitter machine-learning

Twitter提要的集群,twitter,machine-learning,data-mining,Twitter,Machine Learning,Data Mining,我对聚类是新手，之前刚刚实现了几个算法。我需要根据推文的相似性对推文进行分类。一种方法是只使用散列标签，但我认为它不会提供那么多信息。因此，应该对完整的推文进行分析此外，我还在网上搜索聚类提要的算法我遇到的一个是TF-IDF。我想知道有没有比TF-IDF更好的算法可以在几个小时内实现。另外，我还想了解一些关于twitter提要集群的信息来源注：推文数量：10^5正如Anony Mousse在其上述评论中指出的，TF/IDF只是一种规范化措施，以确保在所有文档中过于流行的词语不会变得太重

我对聚类是新手，之前刚刚实现了几个算法。我需要根据推文的相似性对推文进行分类。一种方法是只使用散列标签，但我认为它不会提供那么多信息。因此，应该对完整的推文进行分析

此外，我还在网上搜索聚类提要的算法

我遇到的一个是TF-IDF。我想知道有没有比TF-IDF更好的算法可以在几个小时内实现。另外，我还想了解一些关于twitter提要集群的信息来源

注：推文数量：10^5

正如Anony Mousse在其上述评论中指出的，TF/IDF只是一种规范化措施，以确保在所有文档中过于流行的词语不会变得太重要

对于数据准备，如果您还没有这样做的话，我建议您阅读并阅读其中的第二部分（通过上面的链接链接）。从每条推文中获取数字向量非常重要。一般来说，在机器学习中，获取特征向量很重要，因为这样，您就可以对数据应用数学算法

现在，您已经为集合中的每条tweet提供了一个特征向量，事情变得有点简单了。我想到了两种聚类算法，每种算法都可以在几个小时内完成，而大量的测试可能需要一个周末

K-均值聚类
单链接层次聚类

只有100000条tweet，您应该能够使用您最喜欢的语言（C++、Java、Python、MATLAB等）在一台计算机上实现这些算法（即，这不是大数据——不需要集群计算）。就个人而言，我认为实现K-Means聚类（我以前做过）比分层聚类（我以前也做过）更容易

编辑：仅当您标记了培训数据，即您的推文中有带标签的情感（快乐用户、ok ok、坏产品、愤怒用户、辱骂用户）时，请遵循以下评论，并且您想回答的问题是：给定一条新推文，它的情感是什么

为了更好地了解K近邻，您应该查看以下一个非常好的资源：

一般来说，对于其他两种算法，有足够的资源，维基百科文章是最好的开始方式。就我个人而言，我觉得K-最近邻（简写为K-NN）是这三种算法中最容易实现的一种，并且可以很快得到结果。

TF-IDF不是一种聚类算法。这是一个标准化/相似性度量。@Anony Mouse是的，我刚刚读过对不起。TF-IDF适用于推特用途吗？我不确定它的效果如何。推特很混乱，是你能找到的最糟糕的数据集。。。但是，垃圾输入垃圾输出：也许TF-IDF实际上和任何其他垃圾测量方法一样有效。@Anony Mouse的目的是，使用分层聚类算法是否合适，因为集群数量未知？谢谢，我有一个问题，即，你对集群数量有何建议。由于簇的数量未知，因此如何应用k均值聚类？什么是k近邻聚类？？？我还没有看过这样的出版物。。。大多数时候，人们指的不是聚类，而是k-means或kNN分类（如您链接的PDF中所示）…@AkashdeepSaluja发现聚类数本身就是一个活跃的研究领域。尝试查找“肘部方法”或检查k-means++算法。就我个人而言，我认为“肘部法”是快速且易于实现的。@anonymouse你是对的。我超越了自己。在写这篇文章的时候，我开始思考分类问题，自然想到了k-NN。k-NN不是一种无监督学习算法。我将编辑我的帖子。@OP：只是为了让您对“肘部方法”有更多的了解：您所做的基本上是将集群的数量从1变为N/2（N=#数据点）。对于每次运行，您计算F-统计量，并在百分比方差与#聚类图斜率急剧下降的地方选取k。问题：您可能无法准确猜测应该使用的集群的确切数量，因为识别这个“肘”是一个主观问题。但是对于k的值，你得到了一个非常接近的大概数字。链接：