Python 潜在语义索引如何用于特征选择？_Python_R_Machine Learning_Feature Selection

Python 潜在语义索引如何用于特征选择？

python r machine-learning

Python 潜在语义索引如何用于特征选择？,python,r,machine-learning,feature-selection,Python,R,Machine Learning,Feature Selection,我正在研究一些机器学习，在一些地方，我发现潜在的语义索引可以用于特征选择。有人能简单地解释一下这是怎么做到的吗？理论上和注释代码中都是理想的。它与主成分分析有何不同它是用什么语言编写的并不真正让我担心，只是我能理解代码和理论。LSA在概念上类似于PCA，但在不同的环境中使用 PCA的目标是将数据转换为新的，可能更小的维度空间。例如，如果您想要识别人脸并使用640x480像素图像（即307200维空间中的向量），您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单，并使数据噪音更小。PC

我正在研究一些机器学习，在一些地方，我发现潜在的语义索引可以用于特征选择。有人能简单地解释一下这是怎么做到的吗？理论上和注释代码中都是理想的。它与主成分分析有何不同

它是用什么语言编写的并不真正让我担心，只是我能理解代码和理论。

LSA在概念上类似于PCA，但在不同的环境中使用

PCA的目标是将数据转换为新的，可能更小的维度空间。例如，如果您想要识别人脸并使用640x480像素图像（即307200维空间中的向量），您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单，并使数据噪音更小。PCA正是这样做的：它“旋转”高维空间的轴，并为每个新轴指定“权重”，以便您可以丢弃其中最不重要的轴
另一方面，LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的，并且专门用于术语文档矩阵。然而，这类矩阵通常被认为太大，因此它们被简化为低秩矩阵，其方式与PCA非常相似（两者都使用PCA）。但是，此处不执行特征选择。相反，您得到的是特征向量变换。SVD为您提供了一些变换矩阵（我们称之为
s
），它与输入向量
x
相乘，可以在更小的空间中以更重要的基生成新向量
x'
。这个新的基础就是你的新特性。虽然，它们不是被选择的，而是通过改造旧的、更大的基础而获得的

有关LSA的更多详细信息，以及实现技巧，请参阅文章
LSA在概念上类似于PCA，但用于不同的设置
PCA的目标是将数据转换为新的，可能更小的维度空间。例如，如果您想要识别人脸并使用640x480像素图像（即307200维空间中的向量），您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单，并使数据噪音更小。PCA正是这样做的：它“旋转”高维空间的轴，并为每个新轴指定“权重”，以便您可以丢弃其中最不重要的轴
另一方面，LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的，并且专门用于术语文档矩阵。然而，这类矩阵通常被认为太大，因此它们被简化为低秩矩阵，其方式与PCA非常相似（两者都使用PCA）。但是，此处不执行特征选择。相反，您得到的是特征向量变换。SVD为您提供了一些变换矩阵（我们称之为
s
），它与输入向量
x
相乘，可以在更小的空间中以更重要的基生成新向量
x'
。这个新的基础就是你的新特性。虽然，它们不是被选择的，而是通过改造旧的、更大的基础而获得的

有关LSA的更多详细信息，以及实现技巧，请参阅文章
LSA在概念上类似于PCA，但用于不同的设置
PCA的目标是将数据转换为新的，可能更小的维度空间。例如，如果您想要识别人脸并使用640x480像素图像（即307200维空间中的向量），您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单，并使数据噪音更小。PCA正是这样做的：它“旋转”高维空间的轴，并为每个新轴指定“权重”，以便您可以丢弃其中最不重要的轴
另一方面，LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的，并且专门用于术语文档矩阵。然而，这类矩阵通常被认为太大，因此它们被简化为低秩矩阵，其方式与PCA非常相似（两者都使用PCA）。但是，此处不执行特征选择。相反，您得到的是特征向量变换。SVD为您提供了一些变换矩阵（我们称之为
s
），它与输入向量
x
相乘，可以在更小的空间中以更重要的基生成新向量
x'
。这个新的基础就是你的新特性。虽然，它们不是被选择的，而是通过改造旧的、更大的基础而获得的

有关LSA的更多详细信息，以及实现技巧，请参阅文章
LSA在概念上类似于PCA，但用于不同的设置
PCA的目标是将数据转换为新的，可能更小的维度空间。例如，如果您想要识别人脸并使用640x480像素图像（即307200维空间中的向量），您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单，并使数据噪音更小。PCA正是这样做的：它“旋转”高维空间的轴，并为每个新轴指定“权重”，以便您可以丢弃其中最不重要的轴
L