Algorithm twitter';s趋势主题算法决定从推文中提取哪些词?

Algorithm twitter';s趋势主题算法决定从推文中提取哪些词?,algorithm,twitter,nlp,ranking,Algorithm,Twitter,Nlp,Ranking,我看到了,重点是“布里特尼·斯皮尔斯”问题。但我有一个不同的问题。算法如何确定哪些单词或短语需要排序?例如,如果我发了一条推特,上面写着“迈克尔·杰克逊去世了”,它怎么知道要退出“迈克尔·杰克逊”而不是“去世”呢 或者假设亚历克·鲍德温(Alec Baldwin)和史蒂文·鲍德温(Steven Baldwin)那天出现在新闻中,因此在很多推特上都提到了他们。它怎么知道应该区别对待这两个名字,而不只是拔出“鲍德温” 简单地说,我可以将这个问题视为NP完全问题(你必须将推文中的所有潜在短语与其他人推

我看到了,重点是“布里特尼·斯皮尔斯”问题。但我有一个不同的问题。算法如何确定哪些单词或短语需要排序?例如,如果我发了一条推特,上面写着“迈克尔·杰克逊去世了”,它怎么知道要退出“迈克尔·杰克逊”而不是“去世”呢

或者假设亚历克·鲍德温(Alec Baldwin)和史蒂文·鲍德温(Steven Baldwin)那天出现在新闻中,因此在很多推特上都提到了他们。它怎么知道应该区别对待这两个名字,而不只是拔出“鲍德温”


简单地说,我可以将这个问题视为NP完全问题(你必须将推文中的所有潜在短语与其他人推文中的所有潜在短语进行比较)。

这个问题的一般解决方案是使用

这是一种统计方法,可以发现比其他词更相关的词/术语,因为它们不经常出现。在这种情况下,“迈克尔·杰克逊”这个名字可能比普通的英语单词“死”的频率要低


至于亚历克·鲍德温(Alec Baldwin)和史蒂文·鲍德温(Steven Baldwin)这两个词,它们会被识别为独立的词,它们会被标记为单独的专有名词。

我相信它会寻找常见的词集。而且,它们似乎正在引用

除此之外,可能还有轻微的人为控制