Machine learning 包装方法中的特征选择与信息过滤?

Machine learning 包装方法中的特征选择与信息过滤?,machine-learning,classification,data-mining,pattern-recognition,feature-selection,Machine Learning,Classification,Data Mining,Pattern Recognition,Feature Selection,我在旧的中期考试中看到了一个来自著名人士汤姆·米切尔的例子,如下所示: 考虑在总共有1000个特征的情况下学习分类器。 其中有50个是真正的课堂信息。另外50个功能是 前50个功能的直接副本。最后的900个特征不是 提供有用信息的假设有足够的数据可靠地评估其有用性 特征是,并且特征选择方法使用良好 阈值 解决方案:100 How many features will be selected by a wrapper method? 解决方案:50 我的挑战是如何实现这些解决方案?我做了很多尝试

我在旧的中期考试中看到了一个来自著名人士汤姆·米切尔的例子,如下所示:

考虑在总共有1000个特征的情况下学习分类器。 其中有50个是真正的课堂信息。另外50个功能是 前50个功能的直接副本。最后的900个特征不是 提供有用信息的假设有足够的数据可靠地评估其有用性 特征是,并且特征选择方法使用良好 阈值

解决方案:100

How many features will be selected by a wrapper method?
解决方案:50

我的挑战是如何实现这些解决方案?我做了很多尝试,但无法理解背后的想法

How many features will be selected by mutual information filtering?
互信息特征选择独立地评估每个特征的候选性。由于基本上有100个功能是真正的信息,我们将通过互信息过滤得到100个功能

How many features will be selected by a wrapper method?
包装器方法评估特征子集,因此它考虑特征之间的交互。由于50个特征是其他50个特征的直接副本,包装器方法能够发现以前50个特征为条件,第二组50个特征根本不添加任何额外信息。过滤后,我们得到了50个功能。假设第一组50个特征为
A1、A2、…、A50
,50个特征的副本为
C1、C2、…、C50
。选定功能的最终结果可能如下所示:

A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.
因此,每个唯一的功能应该只有一个引用(来自
A
功能集或来自
C
功能集)

互信息过滤将选择多少功能

如果按照问题描述,我们应该只选择50个功能。但这种过滤是基于与变量的相关性来预测的。而且,互信息过滤的一个主要缺点是,它们倾向于选择冗余变量,因为它们不考虑变量之间的关系。 包装器方法将选择多少个功能

将其视为所有可能特征子集空间的启发式搜索方法。根据定义,“包装器方法评估特征子集,因此它考虑特征之间的交互。”

示例:爬山,即每次添加一个功能,直到无法实现进一步的改进

因为我们有50个功能拥有最多的信息,其他50个是前者的副本,900个功能是或没有用。因此,我们只有50个功能

A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.