Information retrieval 如何应用主题建模？_Information Retrieval_Topic Modeling

Information retrieval 如何应用主题建模？

Information retrieval 如何应用主题建模？,information-retrieval,topic-modeling,Information Retrieval,Topic Modeling,我有5个主题的10000条推文。假设我知道基本事实（每条推文的实际主题），我将推文分为5个文档，每个文档包含特定主题的推文。然后，我将LDA应用于主题数设置为5的5个文档。在这种情况下，我会得到很好的主题词现在，如果我不知道推特的基本真相，我如何制作输入文档，使LDA仍能为我提供描述这5个主题的好主题词如果我通过随机选择一个tweet样本来创建输入文档呢？如果这最终导致输入文档出现类似的主题混合呢？LDA是否仍能像第一段那样找到好的主题词？如果我理解正确，你的问题是关于短文本（tweet）的

我有5个主题的10000条推文。假设我知道基本事实（每条推文的实际主题），我将推文分为5个文档，每个文档包含特定主题的推文。然后，我将LDA应用于主题数设置为5的5个文档。在这种情况下，我会得到很好的主题词

现在，如果我不知道推特的基本真相，我如何制作输入文档，使LDA仍能为我提供描述这5个主题的好主题词

如果我通过随机选择一个tweet样本来创建输入文档呢？如果这最终导致输入文档出现类似的主题混合呢？LDA是否仍能像第一段那样找到好的主题词？

如果我理解正确，你的问题是关于短文本（tweet）的主题建模。一种方法是在训练LDA之前将tweet合并成长的伪文档。另一个是假设每个文档/推文只有一个主题

如果您不知道tweet的基本事实标签，那么您可能希望尝试每个文档一个主题的主题模型（即，单图的混合）。有关模型的详细信息，请参见：

尹建华和王建勇。2014一种基于Dirichlet多项式混合模型的短文本聚类方法。第20届ACM SIGKDD国际知识发现和数据挖掘会议论文集，第233-242页

您可以找到我的这个模型和LDA的Java实现，假设您知道基本事实标签，您还可以在文档集群任务中使用我的实现来比较这些主题模型

如果您想评估主题连贯性（即评估主题词的质量），我建议您看看Palmetto toolkit（），它实现了主题连贯性计算