Machine learning 我们怎么知道狄里克莱分布描述的是这个主题而不是别的?

Machine learning 我们怎么知道狄里克莱分布描述的是这个主题而不是别的?,machine-learning,data-mining,lda,dirichlet,Machine Learning,Data Mining,Lda,Dirichlet,用于文档建模 我从中了解到: 不同的Dirichlet分布可用于通过 关于不同主题的不同作者或文件 那么,我们如何判断它是针对不同的作者还是针对不同的主题建模呢?这一点很重要,因为在文档聚类任务中,它直接决定聚类结果的语义 我发现将建模的可能方面仅限于作者或主题过于主观。由于似乎没有强有力的证据支持某个特定方面,因此它可能是任何其他潜在/潜在方面 有人能解释一下吗?这根本不是为作者或主题建模,而是潜在的特征,这些特征很可能映射到现实世界中的概念,如作者或主题。对于任何潜在功能,您都可以看到哪些文

用于文档建模

我从中了解到:

不同的Dirichlet分布可用于通过 关于不同主题的不同作者或文件

那么,我们如何判断它是针对不同的作者还是针对不同的主题建模呢?这一点很重要,因为在文档聚类任务中,它直接决定聚类结果的语义

我发现将建模的可能方面仅限于作者或主题过于主观。由于似乎没有强有力的证据支持某个特定方面,因此它可能是任何其他潜在/潜在方面


有人能解释一下吗?

这根本不是为作者或主题建模,而是潜在的特征,这些特征很可能映射到现实世界中的概念,如作者或主题。对于任何潜在功能,您都可以看到哪些文档关联性最强,并且可以对功能的“内容”进行直观的解释。

这根本不是对作者或主题进行建模,而是潜在功能,这些潜在功能很可能映射到真实世界的概念,如作者或主题。对于任何潜在的功能,您都可以看到哪些文档关联最为紧密,并可能对该功能的“用途”做出直观的解释。

在考虑LDA时,您似乎犯了一个常见的错误

LDA不是一种文档聚类方法。根据模型,任何为文档分配主题的尝试都是不正确的;事实上,任何为单词指定主题的尝试都是不正确的。相反,LDA是一种查看文档集合的方法,以及查看这些文档中主题的混合方式。换句话说,每个文档并没有一个单独的主题,它有一个主题分布。这不是文档属于哪个主题的不确定性,而是文档中使用的主题的比例。给定一个文档,您可以计算该文档中主题混合的分布;给定一个文档集合,您可以推断出每个文档中的混合以及最能描述该集合的主题。每个单词也不确定它来自哪个主题,因为根据定义,每个主题都可以发出每个可能的单词,但它们从某些主题发出的可能性比从其他主题发出的可能性更大

回答您最初关于主题是否反映作者、主题、风格、注册或其他方面的问题:这些主题并不明确表示其中任何一个。它们代表词的分组。每个主题都是词汇表中的一个分布,因此不同的主题代表了不同的词汇使用趋势:在一个同质作者但异质主题的集合中,这些主题可能对应于“主题”(即主题)的直观概念;在一个异质作者但同质主题的集合中,不同的主题可能与不同的作者相关。在主题、作者、语域、体裁等混杂的集合中,它们可能根本不符合任何可观察的特征


相反,这些主题是一个抽象的构造,所有最终的主题都告诉您,在假设模型正确的情况下,允许您重构原始输入的最佳主题是什么。可悲的事实是,这可能与您希望主题对应的内容不符,因为您真正感兴趣的内容(比如作者身份)与您提供的收藏中其他您不感兴趣的内容(注册、主题、体裁)是共通的。除非你明确指出所有可能导致词汇使用变化的因素,如一袋单词模型中所表达的,然后设计一个模型来解释所有这些因素(而不是确定的香草LDA),你根本无法保证所归纳的主题和你所关心的维度上的分组之间的一致性。

听起来你在考虑LDA时犯了一个常见的错误

LDA不是一种文档聚类方法。根据模型,任何为文档分配主题的尝试都是不正确的;事实上,任何为单词指定主题的尝试都是不正确的。相反,LDA是一种查看文档集合的方法,以及查看这些文档中主题的混合方式。换句话说,每个文档并没有一个单独的主题,它有一个主题分布。这不是文档属于哪个主题的不确定性,而是文档中使用的主题的比例。给定一个文档,您可以计算该文档中主题混合的分布;给定一个文档集合,您可以推断出每个文档中的混合以及最能描述该集合的主题。每个单词也不确定它来自哪个主题,因为根据定义,每个主题都可以发出每个可能的单词,但它们从某些主题发出的可能性比从其他主题发出的可能性更大

回答您最初关于主题是否反映作者、主题、风格、注册或其他方面的问题:这些主题并不明确表示其中任何一个。它们代表词的分组。每个主题都是词汇表中的一个分布,因此不同的主题代表了不同的词汇使用趋势:在一个同质作者但异质主题的集合中,这些主题可能对应于“主题”(即主题)的直观概念;在一个异质作者但同质主题的集合中,不同的主题可能与不同的作者相关。在主题、作者、语域、体裁等混杂的集合中,它们可能根本不符合任何可观察的特征

相反,这些主题是一个抽象的构造,所有最终的主题都告诉您,在假设模型正确的情况下,允许您重构原始输入的最佳主题是什么。可悲的事实是,这可能并不正确