Nlp 主题发现/发现的最佳模式

Nlp 主题发现/发现的最佳模式,nlp,keyword,information-retrieval,information-extraction,topic-modeling,Nlp,Keyword,Information Retrieval,Information Extraction,Topic Modeling,在短的非结构化文档(例如SMS或Twitter消息)中,什么是最佳的主题识别模型?潜在狄利克雷分配 LDA是主题建模中最强大的模型之一,但将其应用于非常短的文本(如Twitter/微博帖子)可能需要一些额外的工作。文章的作者讨论了LDA和另一种模型,并建议在运行主题模型之前聚合多篇文章 [请注意术语:“主题发现”实际上是受监督文档分类的一个古老同义词。]我认为一切都取决于数据。因此,您还应该尝试纯TFIDF、LSI、LDA、kmeans和层次聚类来检测有用的短语和主题 对于短文本(如tweet)

在短的非结构化文档(例如SMS或Twitter消息)中,什么是最佳的主题识别模型?潜在狄利克雷分配

LDA是主题建模中最强大的模型之一,但将其应用于非常短的文本(如Twitter/微博帖子)可能需要一些额外的工作。文章的作者讨论了LDA和另一种模型,并建议在运行主题模型之前聚合多篇文章


[请注意术语:“主题发现”实际上是受监督文档分类的一个古老同义词。]

我认为一切都取决于数据。因此,您还应该尝试纯TFIDF、LSI、LDA、kmeans和层次聚类来检测有用的短语和主题

对于短文本(如tweet),应用主题模型(如LDA)更具挑战性,因为数据稀疏,且此类文本中的上下文有限。一种方法是在训练LDA之前将短文本合并成长伪文档。另一种简单的方法是假设每个文档只有一个主题

对于短文本或推特上的主题建模,每个文档一个主题的Dirichlet多项式混合(DMM)模型(单图的混合)优于LDA主题模型。您可以在包中找到LDA和DMM模型的实现。jLDADMM还提供了一个文档聚类评估来比较这些主题模型