Nlp 概率潜在语义分析/索引-简介

Nlp 概率潜在语义分析/索引-简介,nlp,lsa,latent-semantic-indexing,Nlp,Lsa,Latent Semantic Indexing,但是最近我发现这个链接非常有助于理解LSA的原理,而不需要太多的数学知识。它为我进一步发展奠定了良好的基础 目前,我正在寻找一个类似的介绍概率潜在语义分析/索引。少用数学,多用例子解释背后的原理。如果你想知道这样的介绍,请告诉我 它可以用来寻找句子之间的相似性度量吗?它处理一词多义吗 是否有相同的python实现 谢谢。有一个很好的例子解释了LSA及其与概率潜在语义分析(PLSA)的联系。这个演讲有一些数学知识,但比PLSA论文(甚至维基百科页面)更容易理解 PLSA可以用来获得句子之间的相似性

但是最近我发现这个链接非常有助于理解LSA的原理,而不需要太多的数学知识。它为我进一步发展奠定了良好的基础

目前,我正在寻找一个类似的介绍概率潜在语义分析/索引。少用数学,多用例子解释背后的原理。如果你想知道这样的介绍,请告诉我

它可以用来寻找句子之间的相似性度量吗?它处理一词多义吗

是否有相同的python实现

谢谢。

有一个很好的例子解释了LSA及其与概率潜在语义分析(PLSA)的联系。这个演讲有一些数学知识,但比PLSA论文(甚至维基百科页面)更容易理解

PLSA可以用来获得句子之间的相似性度量,因为两个句子可以被看作是从潜在类的概率分布中提取的短文档。不过,你的相似性在很大程度上取决于你的训练集。用于训练潜在类模型的文档应反映要比较的文档类型。用两句话生成PLSA模型不会创建有意义的潜在类。类似地,使用上下文非常相似的语料库进行训练可能会创建对文档的细微更改过于敏感的潜在类。此外,由于句子包含的标记相对较少(与文档相比),我不相信您会从PLSA的句子级别获得高质量的相似性结果

PLSA不处理多义词。然而,如果您关心一词多义,您可以尝试在输入文本上运行词义消歧工具,用正确的词义标记每个单词。在这个标记的语料库上运行PLSA(或LDA)将消除结果文档表示中多义的影响


正如Sharmila所指出的,潜在Dirichlet分配(LDA)被认为是文档比较的最新技术,并且优于PLSA,后者往往会过度拟合训练数据。此外,还有更多的工具支持LDA,并分析您使用LDA获得的结果是否有意义。(如果你喜欢冒险,你可以阅读如何评估你从LDA获得的潜在主题的质量。)

这似乎不适用于PLSI,但我还是推荐。这是一个Python库,它实现了经典的LSI和潜在的Dirichlet分配(LDA),这是一个更强大的文档模型,旨在克服PLSI中的弱点。@larsmans,谢谢你的指点。我正在尝试LDA。如果您可以添加以上内容作为答案,那就太好了:)