Nlp 用于文本挖掘主题分析的SVD解释

Nlp 用于文本挖掘主题分析的SVD解释,nlp,text-mining,svd,topic-modeling,latent-semantic-indexing,Nlp,Text Mining,Svd,Topic Modeling,Latent Semantic Indexing,背景 我通过从头开始构建自己的文本挖掘工具包来学习文本挖掘——这是最好的学习方式 SVD 奇异值分解通常被认为是一种很好的方法: 在2d/3d中可视化高维数据(word文档矩阵) 通过降维提取关键主题 我花了大约一个月的时间学习SVD。。我必须承认很多在线教程,论文,大学演讲幻灯片。。即使是合适的印刷教科书也不那么容易消化 以下是我目前的理解: 我想我已经理解了以下几点: 任何(实)矩阵都可以唯一地分解为3个矩阵 使用奇异值分解的矩阵,A=U⋅s⋅V^T S是奇异值的对角矩阵,按数量级降序

背景

我通过从头开始构建自己的文本挖掘工具包来学习文本挖掘——这是最好的学习方式

SVD

奇异值分解通常被认为是一种很好的方法:

  • 在2d/3d中可视化高维数据(word文档矩阵)
  • 通过降维提取关键主题
我花了大约一个月的时间学习SVD。。我必须承认很多在线教程,论文,大学演讲幻灯片。。即使是合适的印刷教科书也不那么容易消化

以下是我目前的理解:

我想我已经理解了以下几点:

  • 任何(实)矩阵都可以唯一地分解为3个矩阵 使用奇异值分解的矩阵,A=U⋅s⋅V^T
  • S是奇异值的对角矩阵,按数量级降序排列
  • U和V^T是正交向量的矩阵
我知道,我们可以通过对S的较小元素进行零运算,过滤掉不太重要的信息,并重建原始数据,从而降低维数。如果我想把维度减少到2,我只会保留对角线的最左上角的2个元素来形成一个新的矩阵

我的问题

为了查看投影到降维空间上的文档,我看到人们使用⋅为什么?对s的解释是什么⋅V^T

类似地,为了了解主题,我看到人们使用U⋅S'。为什么?对此有何解释

我有限的学校数学告诉我,我应该把这些视为变换(旋转、缩放)。。。但这也无助于澄清这一点

**更新**
我在我的博客解释中添加了一个更新,其中反映了我所看的一本教科书的基本原理,解释了为什么S'.V^T是一个文档视图,为什么U.S'是一个单词视图。我想,这个问题更适合交叉验证。好帖子,谢谢。