Twitter 基于相似性的hastag分类

Twitter 基于相似性的hastag分类,twitter,machine-learning,nlp,text-analysis,Twitter,Machine Learning,Nlp,Text Analysis,我有不同的文档,每个文档中都有一个标签列表。我想把它们放在文档中最相关的标签下面。 Egs:如果有环保的,环保的GoingGreen-我想把所有这些都放在最相关和最有代表性的标签下,比如说Eco。我应该如何处理这个问题,我应该看什么技术和算法?你的问题不是很严格,因此可能有多个答案,但是,如果我们假设你真的想要,我想将所有这些分组在最常见的标签下,然后简单地循环所有标签,计算它们经常出现,然后为每个文档选择出现次数最多的文档 差不多 N = {} for D in documents:

我有不同的文档,每个文档中都有一个标签列表。我想把它们放在文档中最相关的标签下面。
Egs:如果有环保的,环保的GoingGreen-我想把所有这些都放在最相关和最有代表性的标签下,比如说Eco。我应该如何处理这个问题,我应该看什么技术和算法?

你的问题不是很严格,因此可能有多个答案,但是,如果我们假设你真的想要,我想将所有这些分组在最常见的标签下,然后简单地循环所有标签,计算它们经常出现,然后为每个文档选择出现次数最多的文档

差不多

N = {}
for D in documents:
    for h in D.hashtags:
        if h not in N: N[h] = 0
        N[h] += 1

for D in documents:
    best = None
    for h in D.hashtags:
        if best==None or N[best] < N[h]:
            best = h
    print 'Document ',D,' should be tagged with ',best

我将创建文档哈希标记的二分图,并在二分图上使用聚类:


这样,我就不用使用文档的内容,而只是对hashtag进行集群,这正是您想要的

你尝试过什么方法?我希望它们被分组在最相关和最具代表性的标签下,这是非常不精确和模糊的。有几十种可能的相关和代表性定义,最简单的定义在上面的答案中。