Python 标记为LDA和x2B；引导式LDA主题建模_Python_Machine Learning_Nlp_Lda_Topic Modeling

Python 标记为LDA和x2B；引导式LDA主题建模

python machine-learning nlp

Python 标记为LDA和x2B；引导式LDA主题建模,python,machine-learning,nlp,lda,topic-modeling,Python,Machine Learning,Nlp,Lda,Topic Modeling,我对机器学习、NLP和LDA都比较陌生，所以我不确定我是否完全正确地处理了我的问题；但我试图用已知主题和多个主题选择进行无监督的主题建模。基于我可以用每一个主题标记我的每一个文档，我的非监督集有效地成为监督集（LLDA是一种监督技术）在阅读本文时，我遇到了一些其他潜在问题- 首先，我的数据按类别和子类别进行组织。根据这篇论文，LLDA更有效，文本之间有显著的语义区别——我不会特别注意我相对较近的子类别。此外，本文还指出，LLDA并非设计为多标签分类器我希望通过包含GuidedLDA的引导

我对机器学习、NLP和LDA都比较陌生，所以我不确定我是否完全正确地处理了我的问题；但我试图用已知主题和多个主题选择进行无监督的主题建模。基于

我可以用每一个主题标记我的每一个文档，我的非监督集有效地成为监督集（LLDA是一种监督技术）

在阅读本文时，我遇到了一些其他潜在问题- 首先，我的数据按类别和子类别进行组织。根据这篇论文，LLDA更有效，文本之间有显著的语义区别——我不会特别注意我相对较近的子类别。此外，本文还指出，LLDA并非设计为多标签分类器

我希望通过包含GuidedLDA的引导部分来弥补这些缺点（我没有读过关于这方面的文章，但我读过）

那么，是否有任何算法（我假设对LLDA进行了修改，但我在这方面的阅读能力也不是很好）允许人们使用某种形式的直觉来帮助一个无监督的主题模型，该模型具有选择多个主题的已知主题类

至于我为什么不使用引导式LDA，我计划对其进行测试，看看它的性能如何（与LLDA一起）。但它也不是为多个标签设计的

如果这很重要的话，请稍微注意——我实际上是在使用文档和文字来表示我的数据，我已经读过关于LDA与其他数据类型一起使用的内容

进一步说明-我对Python有相当多的经验，尽管我听说有一个很好的主题建模工具Mallet，我可能会去探索，但还没有去研究（也许它有一些相关的东西？

正如您所说，您将尝试使用引导式LDA，您可以通过以下方式获得多个标签：

有一种分布称为θ分布，或者当我们想要获取文档的主题时，引导LDA的输出将是一个数组，该数组具有每个文档的每个主题的概率。我们通常选择概率最高的主题。可能是您可以根据您的问题设置阈值，然后选择概率大于该值的主题

这将有助于您解决无监督引导的多标签主题建模问题

正如您所说，您将尝试使用引导式LDA，您可以通过以下方式获得多个标签：

这将有助于您解决无监督引导的多标签主题建模问题

因为您有一组已知的主题，所以使用受监督的LDA/LLDA是有意义的。如果您使用无监督的LDA并用已知主题标记所有文档，它将发现给定文档之间的关联，但它们可能与给定主题不相关

我一直在用mallet和python创建有监督的LDA。Gensim为Mallet的LDA类提供了一个包装器，但我在使用python的子进程通过命令行使用Mallet方面运气更好。我用大卫·米诺的作为起点

一个文档可以有多个标签，LDA的优点在于它几乎像一个模糊关联最近邻算法。对于lda来说，子类别不应该是一个问题，因为文档可以与父主题和子主题关联，并且它们不需要均匀分布。它是一个多标签分类器

如果您真的想使用无监督分类器来处理文档，我建议使用RNN，一种递归神经网络。它对于文本/文档处理特别有用，因为它查找数据序列上的关联。

因为您有一组已知主题，所以使用受监督的LDA/LLDA是有意义的。如果您使用无监督的LDA并用已知主题标记所有文档，它将发现给定文档之间的关联，但它们可能与给定主题不相关

如果您真的想使用无监督分类器来处理文档，我建议使用RNN，一种递归神经网络。它对于文本/文档处理特别有用，因为它查找数据序列上的关联。

我本来打算这样做，但我看到一些多类主题模型做的其他事情刚刚超过阈值X；比如注意到某些类别是相互关联的。所以我想知道是否还有其他类似的事情？我本来打算做一些类似的事情，但我读到一些多类主题模型做的其他事情刚刚超过阈值X；比如注意到某些类别是相互关联的。所以我想知道是否还有其他类似的情况？我没有标记数据。我只知道我的主题是什么（我知道他们希望主题是“空间、体育和其他”）。。