Information retrieval 如何应用主题建模?

Information retrieval 如何应用主题建模?,information-retrieval,topic-modeling,Information Retrieval,Topic Modeling,我有5个主题的10000条推文。假设我知道基本事实(每条推文的实际主题),我将推文分为5个文档,每个文档包含特定主题的推文。然后,我将LDA应用于主题数设置为5的5个文档。在这种情况下,我会得到很好的主题词 现在,如果我不知道推特的基本真相,我如何制作输入文档,使LDA仍能为我提供描述这5个主题的好主题词 如果我通过随机选择一个tweet样本来创建输入文档呢?如果这最终导致输入文档出现类似的主题混合呢?LDA是否仍能像第一段那样找到好的主题词?如果我理解正确,你的问题是关于短文本(tweet)的

我有5个主题的10000条推文。假设我知道基本事实(每条推文的实际主题),我将推文分为5个文档,每个文档包含特定主题的推文。然后,我将LDA应用于主题数设置为5的5个文档。在这种情况下,我会得到很好的主题词

现在,如果我不知道推特的基本真相,我如何制作输入文档,使LDA仍能为我提供描述这5个主题的好主题词


如果我通过随机选择一个tweet样本来创建输入文档呢?如果这最终导致输入文档出现类似的主题混合呢?LDA是否仍能像第一段那样找到好的主题词?

如果我理解正确,你的问题是关于短文本(tweet)的主题建模。一种方法是在训练LDA之前将tweet合并成长的伪文档。另一个是假设每个文档/推文只有一个主题

如果您不知道tweet的基本事实标签,那么您可能希望尝试每个文档一个主题的主题模型(即,单图的混合)。有关模型的详细信息,请参见:

尹建华和王建勇。2014一种基于Dirichlet多项式混合模型的短文本聚类方法。第20届ACM SIGKDD国际知识发现和数据挖掘会议论文集,第233-242页

您可以找到我的这个模型和LDA的Java实现,假设您知道基本事实标签,您还可以在文档集群任务中使用我的实现来比较这些主题模型

如果您想评估主题连贯性(即评估主题词的质量),我建议您看看Palmetto toolkit(),它实现了主题连贯性计算