Twitter 基于相似性的hastag分类_Twitter_Machine Learning_Nlp_Text Analysis

Twitter 基于相似性的hastag分类

twitter machine-learning nlp

Twitter 基于相似性的hastag分类,twitter,machine-learning,nlp,text-analysis,Twitter,Machine Learning,Nlp,Text Analysis,我有不同的文档，每个文档中都有一个标签列表。我想把它们放在文档中最相关的标签下面。 Egs：如果有环保的，环保的GoingGreen-我想把所有这些都放在最相关和最有代表性的标签下，比如说Eco。我应该如何处理这个问题，我应该看什么技术和算法？你的问题不是很严格，因此可能有多个答案，但是，如果我们假设你真的想要，我想将所有这些分组在最常见的标签下，然后简单地循环所有标签，计算它们经常出现，然后为每个文档选择出现次数最多的文档差不多 N = {} for D in documents:

我有不同的文档，每个文档中都有一个标签列表。我想把它们放在文档中最相关的标签下面。

Egs：如果有环保的，环保的GoingGreen-我想把所有这些都放在最相关和最有代表性的标签下，比如说Eco。我应该如何处理这个问题，我应该看什么技术和算法？

你的问题不是很严格，因此可能有多个答案，但是，如果我们假设你真的想要，我想将所有这些分组在最常见的标签下，然后简单地循环所有标签，计算它们经常出现，然后为每个文档选择出现次数最多的文档

差不多

N = {}
for D in documents:
    for h in D.hashtags:
        if h not in N: N[h] = 0
        N[h] += 1

for D in documents:
    best = None
    for h in D.hashtags:
        if best==None or N[best] < N[h]:
            best = h
    print 'Document ',D,' should be tagged with ',best

我将创建文档哈希标记的二分图，并在二分图上使用聚类：

这样，我就不用使用文档的内容，而只是对hashtag进行集群，这正是您想要的

你尝试过什么方法？我希望它们被分组在最相关和最具代表性的标签下，这是非常不精确和模糊的。有几十种可能的相关和代表性定义，最简单的定义在上面的答案中。