Machine learning 机器学习：哪种算法用于识别训练集中的相关特征？_Machine Learning

Machine learning 机器学习：哪种算法用于识别训练集中的相关特征？

machine-learning

Machine learning 机器学习：哪种算法用于识别训练集中的相关特征？,machine-learning,Machine Learning,我遇到了一个问题，我可能拥有大量的功能。本质上是堆积如山的数据点（为了便于讨论，假设它有数百万个特性）。我不知道哪些数据点有用，哪些数据点与给定结果无关（我猜1%相关，99%无关）我有数据点和最终结果（二元结果）。我感兴趣的是减少特征集，这样我就可以识别最有用的数据点集来收集，以训练未来的分类算法我当前的数据集非常庞大，如果要识别相关特征、减少收集的数据点数量以及增加训练示例数量，我无法用堆积如山的数据生成尽可能多的训练示例。我希望在更少的特征数据点（同时维护相关数据点）下，通过更多的训练示

我遇到了一个问题，我可能拥有大量的功能。本质上是堆积如山的数据点（为了便于讨论，假设它有数百万个特性）。我不知道哪些数据点有用，哪些数据点与给定结果无关（我猜1%相关，99%无关）

我有数据点和最终结果（二元结果）。我感兴趣的是减少特征集，这样我就可以识别最有用的数据点集来收集，以训练未来的分类算法

我当前的数据集非常庞大，如果要识别相关特征、减少收集的数据点数量以及增加训练示例数量，我无法用堆积如山的数据生成尽可能多的训练示例。我希望在更少的特征数据点（同时维护相关数据点）下，通过更多的训练示例可以得到更好的分类器

首先，我应该关注什么机器学习算法，确定与结果相关的特征

从我所做的一些阅读来看，SVM似乎提供了每个特征的权重，我可以用它来识别得分最高的特征。有人能证实这一点吗？进一步解释？或者我应该沿着另一条思路思考吗？

线性模型中的特征权重（逻辑回归、朴素贝叶斯等）可以被视为重要度量，前提是您的特征都在相同的尺度上

您的模型可以与正则化器结合，用于惩罚某些类型的特征向量的学习（本质上是将特征选择折叠到分类问题中）。L1正则化逻辑回归听起来似乎非常适合您的需要。

也许您可以使用PCA或最大熵算法来减少数据集…

如果您在R中工作，SIS软件包有一个功能可以为您实现这一点

如果你想做一些艰难的事情，你想做的是特征筛选，在你从一组正常大小的特征中进行特征选择和模型选择之前，先进行大规模的初步降维。弄清楚什么是合理的大小是很棘手的，我没有一个神奇的答案，但是你可以根据你想要包含的功能的优先顺序来确定 1）对于每个功能，通过二进制响应将数据分成两组 2）找到比较这两组数据的Komogorov-Smirnov统计量 KS统计值最高的特征在建模中最有用

刘、钟和李写了一篇题为“超高维数据特征筛选的选择性概述”的论文《在那里》，我敢肯定有一份免费的副本在网上某个地方流传。

你可以根据你的数据类型进行卡方检验或熵检验。Supervized离散化以一种智能的方式大大减少了数据的大小（看看Fayyad&Irani提出的递归最小熵分区算法）

4年后，我现在已经完成了该领域博士学位的一半，我想补充一点，功能的定义并不总是简单的。如果特性是数据集中的一列，那么这里的答案非常适用

然而，以卷积神经网络处理的图像为例，特征不是输入的一个像素，而是更具概念性的。下面是关于图像的一个很好的讨论：