Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/296.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/r/82.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 潜在语义索引如何用于特征选择?_Python_R_Machine Learning_Feature Selection - Fatal编程技术网

Python 潜在语义索引如何用于特征选择?

Python 潜在语义索引如何用于特征选择?,python,r,machine-learning,feature-selection,Python,R,Machine Learning,Feature Selection,我正在研究一些机器学习,在一些地方,我发现潜在的语义索引可以用于特征选择。有人能简单地解释一下这是怎么做到的吗?理论上和注释代码中都是理想的。它与主成分分析有何不同 它是用什么语言编写的并不真正让我担心,只是我能理解代码和理论。LSA在概念上类似于PCA,但在不同的环境中使用 PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PC

我正在研究一些机器学习,在一些地方,我发现潜在的语义索引可以用于特征选择。有人能简单地解释一下这是怎么做到的吗?理论上和注释代码中都是理想的。它与主成分分析有何不同


它是用什么语言编写的并不真正让我担心,只是我能理解代码和理论。

LSA在概念上类似于PCA,但在不同的环境中使用

PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴

另一方面,LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的,并且专门用于术语文档矩阵。然而,这类矩阵通常被认为太大,因此它们被简化为低秩矩阵,其方式与PCA非常相似(两者都使用PCA)。但是,此处不执行特征选择。相反,您得到的是特征向量变换。SVD为您提供了一些变换矩阵(我们称之为
s
),它与输入向量
x
相乘,可以在更小的空间中以更重要的基生成新向量
x'
。 这个新的基础就是你的新特性。虽然,它们不是被选择的,而是通过改造旧的、更大的基础而获得的


有关LSA的更多详细信息,以及实现技巧,请参阅文章

LSA在概念上类似于PCA,但用于不同的设置

PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴

另一方面,LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的,并且专门用于术语文档矩阵。然而,这类矩阵通常被认为太大,因此它们被简化为低秩矩阵,其方式与PCA非常相似(两者都使用PCA)。但是,此处不执行特征选择。相反,您得到的是特征向量变换。SVD为您提供了一些变换矩阵(我们称之为
s
),它与输入向量
x
相乘,可以在更小的空间中以更重要的基生成新向量
x'
。 这个新的基础就是你的新特性。虽然,它们不是被选择的,而是通过改造旧的、更大的基础而获得的


有关LSA的更多详细信息,以及实现技巧,请参阅文章

LSA在概念上类似于PCA,但用于不同的设置

PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴

另一方面,LSA用于分析单词的语义相似性。它无法处理图像、银行数据或其他自定义数据集。它是专门为文本处理而设计的,并且专门用于术语文档矩阵。然而,这类矩阵通常被认为太大,因此它们被简化为低秩矩阵,其方式与PCA非常相似(两者都使用PCA)。但是,此处不执行特征选择。相反,您得到的是特征向量变换。SVD为您提供了一些变换矩阵(我们称之为
s
),它与输入向量
x
相乘,可以在更小的空间中以更重要的基生成新向量
x'
。 这个新的基础就是你的新特性。虽然,它们不是被选择的,而是通过改造旧的、更大的基础而获得的


有关LSA的更多详细信息,以及实现技巧,请参阅文章

LSA在概念上类似于PCA,但用于不同的设置

PCA的目标是将数据转换为新的,可能更小的维度空间。例如,如果您想要识别人脸并使用640x480像素图像(即307200维空间中的向量),您可能会尝试将此空间减少到对两者都合理的程度—使其计算更简单,并使数据噪音更小。PCA正是这样做的:它“旋转”高维空间的轴,并为每个新轴指定“权重”,以便您可以丢弃其中最不重要的轴

L