Matlab 在数据集上查找最有意义的变量_Matlab_Correlation_Data Analysis

Matlab 在数据集上查找最有意义的变量

matlab

Matlab 在数据集上查找最有意义的变量,matlab,correlation,data-analysis,Matlab,Correlation,Data Analysis,假设我有一组变量（向量，它们都具有相同的长度N）：X1、X2、X3、X4、X5、X6…Xn.和一个时间序列Y（具有相同的长度N），它们依赖于一些变量X 我需要一个算法来确定哪些变量X与Y最相关。i、 e我需要丢弃最没有意义的变量，并在Y上获得最有影响的变量例如：假设我们想要确定什么影响特定IT站点的web流量。我们有5个关键词：关键词1，关键词2，关键词3，关键词4和关键词5 假设我们有谷歌上的关键词搜索量（key1=X1，key2=X2，key3=X3，key4=X4，key5=X5），以

假设我有一组变量（向量，它们都具有相同的长度N）：X1、X2、X3、X4、X5、X6…Xn.和一个时间序列Y（具有相同的长度N），它们依赖于一些变量X

我需要一个算法来确定哪些变量X与Y最相关。i、 e我需要丢弃最没有意义的变量，并在Y上获得最有影响的变量

例如：

假设我们想要确定什么影响特定IT站点的web流量。我们有5个关键词：关键词1，关键词2，关键词3，关键词4和关键词5

假设我们有谷歌上的关键词搜索量（key1=X1，key2=X2，key3=X3，key4=X4，key5=X5），以及总网络流量Y。我想确定上述集合中哪些关键字（X1、X2、X3、X4或X5）对该网站的总web流量最有意义。哪些变量可以丢弃，哪些变量移动的流量最大。（假设所有这些向量和时间序列都是0-100范围内的标准化时间序列）

一种方法是使用特征选择svm

我已经使用特征生成机成功地完成了这项工作。

请检查此链接：

如果您认为大多数变量与输出Y呈线性关系，您可以进行逐步回归，以确定模型中包含哪些变量可能您已经知道这一点，但这类问题在机器学习社区中称为特征选择。描述了许多可以尝试的不同方法，其中一些方法是在Matlab的统计和机器学习工具箱中直接实现的。正如@SomeGuy提到的，逐步线性回归就是其中之一。另一个流行的是。