Machine learning 包装方法中的特征选择与信息过滤？_Machine Learning_Classification_Data Mining_Pattern Recognition_Feature Selection

Machine learning 包装方法中的特征选择与信息过滤？

machine-learning

Machine learning 包装方法中的特征选择与信息过滤？,machine-learning,classification,data-mining,pattern-recognition,feature-selection,Machine Learning,Classification,Data Mining,Pattern Recognition,Feature Selection,我在旧的中期考试中看到了一个来自著名人士汤姆·米切尔的例子，如下所示：考虑在总共有1000个特征的情况下学习分类器。其中有50个是真正的课堂信息。另外50个功能是前50个功能的直接副本。最后的900个特征不是提供有用信息的假设有足够的数据可靠地评估其有用性特征是，并且特征选择方法使用良好阈值解决方案：100 How many features will be selected by a wrapper method? 解决方案：50 我的挑战是如何实现这些解决方案？我做了很多尝试

我在旧的中期考试中看到了一个来自著名人士汤姆·米切尔的例子，如下所示：

考虑在总共有1000个特征的情况下学习分类器。其中有50个是真正的课堂信息。另外50个功能是前50个功能的直接副本。最后的900个特征不是提供有用信息的假设有足够的数据可靠地评估其有用性特征是，并且特征选择方法使用良好阈值

解决方案：100

How many features will be selected by a wrapper method?

解决方案：50

我的挑战是如何实现这些解决方案？我做了很多尝试，但无法理解背后的想法

How many features will be selected by mutual information ﬁltering?

互信息特征选择独立地评估每个特征的候选性。由于基本上有100个功能是真正的信息，我们将通过互信息过滤得到100个功能

How many features will be selected by a wrapper method?

包装器方法评估特征子集，因此它考虑特征之间的交互。由于50个特征是其他50个特征的直接副本，包装器方法能够发现以前50个特征为条件，第二组50个特征根本不添加任何额外信息。过滤后，我们得到了50个功能。假设第一组50个特征为
A1、A2、…、A50
，50个特征的副本为
C1、C2、…、C50
。选定功能的最终结果可能如下所示：

A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.
因此，每个唯一的功能应该只有一个引用（来自
A
功能集或来自
C
功能集）
互信息过滤将选择多少功能
如果按照问题描述，我们应该只选择50个功能。但这种过滤是基于与变量的相关性来预测的。而且，互信息过滤的一个主要缺点是，它们倾向于选择冗余变量，因为它们不考虑变量之间的关系。包装器方法将选择多少个功能
将其视为所有可能特征子集空间的启发式搜索方法。根据定义，“包装器方法评估特征子集，因此它考虑特征之间的交互。”
示例：爬山，即每次添加一个功能，直到无法实现进一步的改进
因为我们有50个功能拥有最多的信息，其他50个是前者的副本，900个功能是或没有用。因此，我们只有50个功能

A1, C2, A3, A4, C5, C6, ..., A48, A49, C50.