Warning: file_get_contents(/data/phpspider/zhask/data//catemap/1/vue.js/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Machine learning 机器学习:哪种算法用于识别训练集中的相关特征?_Machine Learning - Fatal编程技术网

Machine learning 机器学习:哪种算法用于识别训练集中的相关特征?

Machine learning 机器学习:哪种算法用于识别训练集中的相关特征?,machine-learning,Machine Learning,我遇到了一个问题,我可能拥有大量的功能。本质上是堆积如山的数据点(为了便于讨论,假设它有数百万个特性)。我不知道哪些数据点有用,哪些数据点与给定结果无关(我猜1%相关,99%无关) 我有数据点和最终结果(二元结果)。我感兴趣的是减少特征集,这样我就可以识别最有用的数据点集来收集,以训练未来的分类算法 我当前的数据集非常庞大,如果要识别相关特征、减少收集的数据点数量以及增加训练示例数量,我无法用堆积如山的数据生成尽可能多的训练示例。我希望在更少的特征数据点(同时维护相关数据点)下,通过更多的训练示

我遇到了一个问题,我可能拥有大量的功能。本质上是堆积如山的数据点(为了便于讨论,假设它有数百万个特性)。我不知道哪些数据点有用,哪些数据点与给定结果无关(我猜1%相关,99%无关)

我有数据点和最终结果(二元结果)。我感兴趣的是减少特征集,这样我就可以识别最有用的数据点集来收集,以训练未来的分类算法

我当前的数据集非常庞大,如果要识别相关特征、减少收集的数据点数量以及增加训练示例数量,我无法用堆积如山的数据生成尽可能多的训练示例。我希望在更少的特征数据点(同时维护相关数据点)下,通过更多的训练示例可以得到更好的分类器

  • 首先,我应该关注什么机器学习算法, 确定与结果相关的特征

从我所做的一些阅读来看,SVM似乎提供了每个特征的权重,我可以用它来识别得分最高的特征。有人能证实这一点吗?进一步解释?或者我应该沿着另一条思路思考吗?

线性模型中的特征权重(逻辑回归、朴素贝叶斯等)可以被视为重要度量,前提是您的特征都在相同的尺度上


您的模型可以与正则化器结合,用于惩罚某些类型的特征向量的学习(本质上是将特征选择折叠到分类问题中)。L1正则化逻辑回归听起来似乎非常适合您的需要。

也许您可以使用PCA或最大熵算法来减少数据集…

如果您在R中工作,SIS软件包有一个功能可以为您实现这一点

如果你想做一些艰难的事情,你想做的是特征筛选,在你从一组正常大小的特征中进行特征选择和模型选择之前,先进行大规模的初步降维。弄清楚什么是合理的大小是很棘手的,我没有一个神奇的答案,但是你可以根据你想要包含的功能的优先顺序来确定 1) 对于每个功能,通过二进制响应将数据分成两组 2) 找到比较这两组数据的Komogorov-Smirnov统计量 KS统计值最高的特征在建模中最有用


刘、钟和李写了一篇题为“超高维数据特征筛选的选择性概述”的论文《在那里》,我敢肯定有一份免费的副本在网上某个地方流传。

你可以根据你的数据类型进行卡方检验或熵检验。Supervized离散化以一种智能的方式大大减少了数据的大小(看看Fayyad&Irani提出的递归最小熵分区算法)

4年后,我现在已经完成了该领域博士学位的一半,我想补充一点,功能的定义并不总是简单的。如果特性是数据集中的一列,那么这里的答案非常适用

然而,以卷积神经网络处理的图像为例,特征不是输入的一个像素,而是更具概念性的。下面是关于图像的一个很好的讨论: