Tags 趋势主题:单词术语与组合术语

Tags 趋势主题:单词术语与组合术语,tags,Tags,我已经了解了如何计算趋势主题(标准分数+浮动平均值) 我的下一个问题是:我的数据库中的术语(由1-3个单词组成)与提到它们的时间有关。但是趋势话题总是只有一个词的术语,因为一个术语的一部分总是比完整的术语更经常被提及。示例:昨天有3篇关于“巴拉克·奥巴马”的新闻文章,今天有148篇。当然,“巴拉克·奥巴马”正在崛起。但“巴拉克”也在崛起,因此它是一个热门话题 当我计算趋势主题时,如何包括术语的长度?我不想使用其他算法,我对上面的算法非常满意。我能把所有两个词的分数乘以1.5左右吗 详细的例子:我

我已经了解了如何计算趋势主题(标准分数+浮动平均值)

我的下一个问题是:我的数据库中的术语(由1-3个单词组成)与提到它们的时间有关。但是趋势话题总是只有一个词的术语,因为一个术语的一部分总是比完整的术语更经常被提及。示例:昨天有3篇关于“巴拉克·奥巴马”的新闻文章,今天有148篇。当然,“巴拉克·奥巴马”正在崛起。但“巴拉克”也在崛起,因此它是一个热门话题

当我计算趋势主题时,如何包括术语的长度?我不想使用其他算法,我对上面的算法非常满意。我能把所有两个词的分数乘以1.5左右吗

详细的例子:我的主要趋势是:微软、中国、希拉里·克林顿、达拉斯小牛队。我想说的是,“希拉里·克林顿”和“达拉斯小牛队”从来都不是排名第一或第二的,因为它们是两个词。“微软”和“中国”是一个词,所以它们的排名总是比较高。有没有可能解决这个问题


我希望你能帮助我。提前谢谢

谈论奥巴马,是的,你可以。:)

也许你可以在输出之前测试一下你的高趋势是否包含在低趋势中。我想试试这样的东西:

你有

  • 奥巴马
  • 法航
  • 巴拉克
  • A330
  • 巴拉克·奥巴马
  • 如果您希望输出的列表不太长(比如您只获得100个最佳分数),则只选择其他列表中未包含的列表,可能会在包含其他列表的列表上增加50%的奖金。(您可能需要先获取150个值,然后进行处理,删除冗余(可能会达到110),然后修剪最后10个值,以恢复100个值。)

    “Barack Obama”包含“Barack”和“Obama”,因此您可以给它100%的奖金,您的列表可能会变成:

  • 法航
  • 巴拉克·奥巴马
  • A330
  • 希望它不会太多地改变您的算法,但实际上您可以在输出之前在最后插入此处理

    编辑:


    或者,如果你真的没有列出最好的分数,而是一个一个地计算,你可以将你的趋势分割,计算出一个经过深思熟虑的组成部分的总和(比如“巴拉克·奥巴马”的趋势是“巴拉克·奥巴马”+0.5*“巴拉克”+0.5*“奥巴马”)。

    基于@subtenate的答案,你应该寻找的公式应该基于以下事实:“巴拉克·奥巴马”总是包含“巴拉克”和“奥巴马”…
    因此,简单的数学将表明它应该是:

    "Barack"s + "Obama"s - "Barack Obama"s
    

    …当然,假设您的部分术语仅在正确的上下文中出现,可以单独出现,也可以合并到完整术语中,即“巴拉克”总是指“巴拉克·奥巴马”(而不是“埃胡德·巴拉克”)(

    非常感谢!非常简单但很有效!:)不幸的是,它只涵盖了一种情况。另一种情况是,我的最热门趋势是:微软、中国、希拉里·克林顿、达拉斯小牛队。我想说的是,“希拉里·克林顿”和“达拉斯小牛队”从来没有排名第一或第二,因为它们是两个词。“微软”和“中国”“是一个词的术语,因此它们总是排名更好。有没有可能解决这个问题?我不知道为什么。使用我给您的方法(从子组件添加部分趋势),您可以实现与常量乘法器相同的效果,只是乘法器取决于子组件的趋势。也许增加乘法器可以做到这一点,但是您应该小心,不要尝试过多地弯曲数据。你可能会把错误的趋势归功于错误的趋势(愚蠢的例子:一个叫麦克唐纳的人会从麦克唐纳的破产中受益太多,并且仅仅因为他的名字而得到比它更高的趋势)。祝你好运,没有足够的口碑来评论阿维德的答案,所以我在这里说:阿维德的公式(几乎)是正确的。你减去趋势(巴拉克·奥巴马),因为它包含两次:一次在趋势(巴拉克)中,一次在趋势(奥巴马)(计算所有出现的“巴拉克”包含所有出现的“巴拉克·奥巴马”;计算“奥巴马”的次数相同,所以两次是“巴拉克·奥巴马”)。但要完全准确地说,你还必须删去所有出现的“奥巴马-巴拉克”,这也包含了两次。问题是AviD还统计了“Ehud Barack”(为了这个例子而错贴)和“Michelle Obama”的趋势。谢谢!为什么要减去“巴拉克·奥巴马”的值?正如@subtenate在他自己的帖子评论中解释的那样,我减去“巴拉克·奥巴马”是因为它已经包含了两次——一次是趋势(“巴拉克”),第二次是“奥巴马”。然而,@subtenate也对罕见的“奥巴马-巴拉克”提出了一个很好的观点。正如我也指出的,除了你所期望的“巴拉克·奥巴马”之外,这些副术语还可能出现在其他趋势中。