Nlp 潜在语义分析与词干提取

Nlp 潜在语义分析与词干提取,nlp,svd,lemmatization,lsa,latent-semantic-analysis,Nlp,Svd,Lemmatization,Lsa,Latent Semantic Analysis,假设任何屈折语言都有一个非常大的语料库。以下是有意义的吗?通过对这些语料库应用LSA,具有相似概念的词在向量空间中会聚在一起,因此表示相同概念的屈折词形式在理想情况下应该与其在向量空间中的引理相同。在这种假设下,查询或语料库的任何引理化或词干化都是不必要的。还是我完全错了?根据LSA创始人的说法。尽管如此,我认为文献中对此存在着普遍的分歧。我读过一些文章,其中发现词干分析可以改善给定信息检索任务的结果 通常,有证据表明词干分析无助于主题建模,甚至可能损害主题的连贯性。这取决于-考虑到LSA通过S

假设任何屈折语言都有一个非常大的语料库。以下是有意义的吗?通过对这些语料库应用LSA,具有相似概念的词在向量空间中会聚在一起,因此表示相同概念的屈折词形式在理想情况下应该与其在向量空间中的引理相同。在这种假设下,查询或语料库的任何引理化或词干化都是不必要的。还是我完全错了?

根据LSA创始人的说法。尽管如此,我认为文献中对此存在着普遍的分歧。我读过一些文章,其中发现词干分析可以改善给定信息检索任务的结果


通常,有证据表明词干分析无助于主题建模,甚至可能损害主题的连贯性。

这取决于-考虑到LSA通过SVD生成的方式,LSA或word2vec类方法捕获的上下文相似性将无法工作,除非您有足够的数据捕获每个单词形式的上下文信息。然后,从理论上讲,有了无限大的文本数据,LSA就可以完成任务——没有理论上的简单和幼稚;如果抛开维度到ifinity的麻烦,约束为什么它不应该工作?是的,对于无限文本,这应该是一个合理的工作。