Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/352.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 标记为LDA和x2B;引导式LDA主题建模_Python_Machine Learning_Nlp_Lda_Topic Modeling - Fatal编程技术网

Python 标记为LDA和x2B;引导式LDA主题建模

Python 标记为LDA和x2B;引导式LDA主题建模,python,machine-learning,nlp,lda,topic-modeling,Python,Machine Learning,Nlp,Lda,Topic Modeling,我对机器学习、NLP和LDA都比较陌生,所以我不确定我是否完全正确地处理了我的问题;但我试图用已知主题和多个主题选择进行无监督的主题建模。 基于 我可以用每一个主题标记我的每一个文档,我的非监督集有效地成为监督集(LLDA是一种监督技术) 在阅读本文时,我遇到了一些其他潜在问题- 首先,我的数据按类别和子类别进行组织。根据这篇论文,LLDA更有效,文本之间有显著的语义区别——我不会特别注意我相对较近的子类别。此外,本文还指出,LLDA并非设计为多标签分类器 我希望通过包含GuidedLDA的引导

我对机器学习、NLP和LDA都比较陌生,所以我不确定我是否完全正确地处理了我的问题;但我试图用已知主题和多个主题选择进行无监督的主题建模。 基于

我可以用每一个主题标记我的每一个文档,我的非监督集有效地成为监督集(LLDA是一种监督技术)

在阅读本文时,我遇到了一些其他潜在问题- 首先,我的数据按类别和子类别进行组织。根据这篇论文,LLDA更有效,文本之间有显著的语义区别——我不会特别注意我相对较近的子类别。此外,本文还指出,LLDA并非设计为多标签分类器

我希望通过包含GuidedLDA的引导部分来弥补这些缺点(我没有读过关于这方面的文章,但我读过)

那么,是否有任何算法(我假设对LLDA进行了修改,但我在这方面的阅读能力也不是很好)允许人们使用某种形式的直觉来帮助一个无监督的主题模型,该模型具有选择多个主题的已知主题类

至于我为什么不使用引导式LDA,我计划对其进行测试,看看它的性能如何(与LLDA一起)。但它也不是为多个标签设计的

如果这很重要的话,请稍微注意——我实际上是在使用文档和文字来表示我的数据,我已经读过关于LDA与其他数据类型一起使用的内容


进一步说明-我对Python有相当多的经验,尽管我听说有一个很好的主题建模工具Mallet,我可能会去探索,但还没有去研究(也许它有一些相关的东西?

正如您所说,您将尝试使用引导式LDA,您可以通过以下方式获得多个标签:

有一种分布称为θ分布,或者当我们想要获取文档的主题时,引导LDA的输出将是一个数组,该数组具有每个文档的每个主题的概率。我们通常选择概率最高的主题。可能是您可以根据您的问题设置阈值,然后选择概率大于该值的主题


这将有助于您解决无监督引导的多标签主题建模问题

正如您所说,您将尝试使用引导式LDA,您可以通过以下方式获得多个标签:

有一种分布称为θ分布,或者当我们想要获取文档的主题时,引导LDA的输出将是一个数组,该数组具有每个文档的每个主题的概率。我们通常选择概率最高的主题。可能是您可以根据您的问题设置阈值,然后选择概率大于该值的主题


这将有助于您解决无监督引导的多标签主题建模问题

因为您有一组已知的主题,所以使用受监督的LDA/LLDA是有意义的。如果您使用无监督的LDA并用已知主题标记所有文档,它将发现给定文档之间的关联,但它们可能与给定主题不相关

我一直在用mallet和python创建有监督的LDA。Gensim为Mallet的LDA类提供了一个包装器,但我在使用python的子进程通过命令行使用Mallet方面运气更好。我用大卫·米诺的作为起点

一个文档可以有多个标签,LDA的优点在于它几乎像一个模糊关联最近邻算法。对于lda来说,子类别不应该是一个问题,因为文档可以与父主题和子主题关联,并且它们不需要均匀分布。它是一个多标签分类器


如果您真的想使用无监督分类器来处理文档,我建议使用RNN,一种递归神经网络。它对于文本/文档处理特别有用,因为它查找数据序列上的关联。

因为您有一组已知主题,所以使用受监督的LDA/LLDA是有意义的。如果您使用无监督的LDA并用已知主题标记所有文档,它将发现给定文档之间的关联,但它们可能与给定主题不相关

我一直在用mallet和python创建有监督的LDA。Gensim为Mallet的LDA类提供了一个包装器,但我在使用python的子进程通过命令行使用Mallet方面运气更好。我用大卫·米诺的作为起点

一个文档可以有多个标签,LDA的优点在于它几乎像一个模糊关联最近邻算法。对于lda来说,子类别不应该是一个问题,因为文档可以与父主题和子主题关联,并且它们不需要均匀分布。它是一个多标签分类器


如果您真的想使用无监督分类器来处理文档,我建议使用RNN,一种递归神经网络。它对于文本/文档处理特别有用,因为它查找数据序列上的关联。

我本来打算这样做,但我看到一些多类主题模型做的其他事情刚刚超过阈值X;比如注意到某些类别是相互关联的。所以我想知道是否还有其他类似的事情?我本来打算做一些类似的事情,但我读到一些多类主题模型做的其他事情刚刚超过阈值X;比如注意到某些类别是相互关联的。所以我想知道是否还有其他类似的情况?我没有标记数据。我只知道我的主题是什么(我知道他们希望主题是“空间、体育和其他”)。。