Nlp 主题发现/发现的最佳模式_Nlp_Keyword_Information Retrieval_Information Extraction_Topic Modeling

Nlp 主题发现/发现的最佳模式

nlp

Nlp 主题发现/发现的最佳模式,nlp,keyword,information-retrieval,information-extraction,topic-modeling,Nlp,Keyword,Information Retrieval,Information Extraction,Topic Modeling,在短的非结构化文档（例如SMS或Twitter消息）中，什么是最佳的主题识别模型？潜在狄利克雷分配 LDA是主题建模中最强大的模型之一，但将其应用于非常短的文本（如Twitter/微博帖子）可能需要一些额外的工作。文章的作者讨论了LDA和另一种模型，并建议在运行主题模型之前聚合多篇文章 [请注意术语：“主题发现”实际上是受监督文档分类的一个古老同义词。]我认为一切都取决于数据。因此，您还应该尝试纯TFIDF、LSI、LDA、kmeans和层次聚类来检测有用的短语和主题对于短文本（如tweet）

在短的非结构化文档（例如SMS或Twitter消息）中，什么是最佳的主题识别模型？潜在狄利克雷分配

LDA是主题建模中最强大的模型之一，但将其应用于非常短的文本（如Twitter/微博帖子）可能需要一些额外的工作。文章的作者讨论了LDA和另一种模型，并建议在运行主题模型之前聚合多篇文章

[请注意术语：“主题发现”实际上是受监督文档分类的一个古老同义词。]

我认为一切都取决于数据。因此，您还应该尝试纯TFIDF、LSI、LDA、kmeans和层次聚类来检测有用的短语和主题

对于短文本（如tweet），应用主题模型（如LDA）更具挑战性，因为数据稀疏，且此类文本中的上下文有限。一种方法是在训练LDA之前将短文本合并成长伪文档。另一种简单的方法是假设每个文档只有一个主题

对于短文本或推特上的主题建模，每个文档一个主题的Dirichlet多项式混合（DMM）模型（单图的混合）优于LDA主题模型。您可以在包中找到LDA和DMM模型的实现。jLDADMM还提供了一个文档聚类评估来比较这些主题模型