Nlp 用于文本挖掘主题分析的SVD解释_Nlp_Text Mining_Svd_Topic Modeling_Latent Semantic Indexing

Nlp 用于文本挖掘主题分析的SVD解释

nlp

Nlp 用于文本挖掘主题分析的SVD解释,nlp,text-mining,svd,topic-modeling,latent-semantic-indexing,Nlp,Text Mining,Svd,Topic Modeling,Latent Semantic Indexing,背景我通过从头开始构建自己的文本挖掘工具包来学习文本挖掘——这是最好的学习方式 SVD 奇异值分解通常被认为是一种很好的方法：在2d/3d中可视化高维数据（word文档矩阵）通过降维提取关键主题我花了大约一个月的时间学习SVD。。我必须承认很多在线教程，论文，大学演讲幻灯片。。即使是合适的印刷教科书也不那么容易消化以下是我目前的理解：我想我已经理解了以下几点：任何（实）矩阵都可以唯一地分解为3个矩阵使用奇异值分解的矩阵，A=U⋅s⋅V^T S是奇异值的对角矩阵，按数量级降序

背景

我通过从头开始构建自己的文本挖掘工具包来学习文本挖掘——这是最好的学习方式

SVD

奇异值分解通常被认为是一种很好的方法：

在2d/3d中可视化高维数据（word文档矩阵）
通过降维提取关键主题

我花了大约一个月的时间学习SVD。。我必须承认很多在线教程，论文，大学演讲幻灯片。。即使是合适的印刷教科书也不那么容易消化

以下是我目前的理解：

我想我已经理解了以下几点：

任何（实）矩阵都可以唯一地分解为3个矩阵使用奇异值分解的矩阵，A=U⋅s⋅V^T
S是奇异值的对角矩阵，按数量级降序排列
U和V^T是正交向量的矩阵

我知道，我们可以通过对S的较小元素进行零运算，过滤掉不太重要的信息，并重建原始数据，从而降低维数。如果我想把维度减少到2，我只会保留对角线的最左上角的2个元素来形成一个新的矩阵

我的问题

为了查看投影到降维空间上的文档，我看到人们使用⋅为什么？对s的解释是什么⋅V^T

类似地，为了了解主题，我看到人们使用U⋅S'。为什么？对此有何解释

我有限的学校数学告诉我，我应该把这些视为变换（旋转、缩放）。。。但这也无助于澄清这一点

**更新**

我在我的博客解释中添加了一个更新，其中反映了我所看的一本教科书的基本原理，解释了为什么S'.V^T是一个文档视图，为什么U.S'是一个单词视图。我想，这个问题更适合交叉验证。好帖子，谢谢。