Python 潜在语义索引如何用于特征选择?
我正在研究一些机器学习,在一些地方,我发现潜在的语义索引可以用于特征选择。有人能简单地解释一下这是怎么做到的吗?理论上和注释代码中都是理想的。它与主成分分析有何不同Python 潜在语义索引如何用于特征选择?,python,r,machine-learning,feature-selection,Python,R,Machine Learning,Feature Selection,我正在研究一些机器学习,在一些地方,我发现潜在的语义索引可以用于特征选择。有人能简单地解释一下这是怎么做到的吗?理论上和注释代码中都是理想的。它与主成分分析有何不同 它是用什么语言编写的并不真正让我担心,只是我能理解代码和理论。LSA在概念上类似于PCA,但在不同的环境中使用 PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PC
它是用什么语言编写的并不真正让我担心,只是我能理解代码和理论。LSA在概念上类似于PCA,但在不同的环境中使用 PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴 另一方面,LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的,并且专门用于术语文档矩阵。然而,这类矩阵通常被认为太大,因此它们被简化为低秩矩阵,其方式与PCA非常相似(两者都使用PCA)。但是,此处不执行特征选择。相反,您得到的是特征向量变换。SVD为您提供了一些变换矩阵(我们称之为
s
),它与输入向量x
相乘,可以在更小的空间中以更重要的基生成新向量x'
。
这个新的基础就是你的新特性。虽然,它们不是被选择的,而是通过改造旧的、更大的基础而获得的
有关LSA的更多详细信息,以及实现技巧,请参阅文章 LSA在概念上类似于PCA,但用于不同的设置 PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴 另一方面,LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的,并且专门用于术语文档矩阵。然而,这类矩阵通常被认为太大,因此它们被简化为低秩矩阵,其方式与PCA非常相似(两者都使用PCA)。但是,此处不执行特征选择。相反,您得到的是特征向量变换。SVD为您提供了一些变换矩阵(我们称之为
s
),它与输入向量x
相乘,可以在更小的空间中以更重要的基生成新向量x'
。
这个新的基础就是你的新特性。虽然,它们不是被选择的,而是通过改造旧的、更大的基础而获得的
有关LSA的更多详细信息,以及实现技巧,请参阅文章 LSA在概念上类似于PCA,但用于不同的设置 PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴 另一方面,LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的,并且专门用于术语文档矩阵。然而,这类矩阵通常被认为太大,因此它们被简化为低秩矩阵,其方式与PCA非常相似(两者都使用PCA)。但是,此处不执行特征选择。相反,您得到的是特征向量变换。SVD为您提供了一些变换矩阵(我们称之为
s
),它与输入向量x
相乘,可以在更小的空间中以更重要的基生成新向量x'
。
这个新的基础就是你的新特性。虽然,它们不是被选择的,而是通过改造旧的、更大的基础而获得的
有关LSA的更多详细信息,以及实现技巧,请参阅文章 LSA在概念上类似于PCA,但用于不同的设置 PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴 L