Optimization 如何识别WEKA中的相关功能?

Optimization 如何识别WEKA中的相关功能?,optimization,weka,feature-selection,Optimization,Weka,Feature Selection,我想在WEKA中执行特征分析。我有一个包含8个特性和65个实例的数据集 我想执行特征选择和优化功能,可用于机器学习方法,如支持向量机。 例如,在Weka中,我想知道如何显示哪些特征对分类结果贡献最大 我认为WEKA提供了一个很好的图形用户界面,允许对单个功能的影响进行非常详细的分析。但是我不知道如何使用它。有什么帮助吗?您有两个选择: 可以使用过滤器执行属性选择。例如,您可以将AttributeSelection选项卡(或过滤器)与搜索方法Ranker和属性评估指标infogainattrib

我想在WEKA中执行特征分析。我有一个包含8个特性和65个实例的数据集

我想执行特征选择和优化功能,可用于机器学习方法,如支持向量机。 例如,在Weka中,我想知道如何显示哪些特征对分类结果贡献最大

我认为WEKA提供了一个很好的图形用户界面,允许对单个功能的影响进行非常详细的分析。但是我不知道如何使用它。有什么帮助吗?

您有两个选择:


  • 可以使用过滤器执行属性选择。例如,您可以将
    AttributeSelection
    选项卡(或过滤器)与搜索方法
    Ranker
    和属性评估指标
    infogainattributeval
    一起使用。通过这种方式,您可以根据其信息增益分数获得最具预测性特征的排名列表。我已经做了很多次了,效果很好。有时,它甚至有助于提高支持向量机的精度,因为已知支持向量机不需要(太多)特征选择。您可以尝试使用其他搜索方法来查找耦合预测值的子组,以及使用其他度量

  • 您可以只查看SVM输出中的系数。例如,在线性支持向量机中,分类器是类似于
    a1.f1+a2.f2+…+的多项式an.fn+fn+1>0
    ,即
    ai
    实例的属性值,以及
    fi
    在SVM训练算法中获得的“权重”。因此,那些值接近
    0
    的权重表示计数不太多的属性,因此是不好的预测因子;极端权重(正或负)表示良好的预测值


此外,您可以检查特定分类器可用的可视化选项(例如,J48是决策树,根测试中使用的属性用于最佳预测)。您也可以检查
属性选择
选项卡可视化选项。

谢谢。我想尝试不同的分类器,而不仅仅是SVM。首先,我想知道哪些特征对分类结果贡献最大。而不是减少或进行其他特征组合,使用这些新选择的特征尝试不同的分类器,如拜耳、GP、决策树、SVM。在这种情况下,请遵循第一个选项。我认为SVMAttributeEval度量和Ranker serach方法是wright方法。那么InfoGainAttributeEval和SVMAttributeEval有什么不同呢??请解释一下?
infogainattributeval
实现了信息增益,这几乎是一个标准。这是一个信息论度量,它考虑了使用一个属性时空间点的熵(或分离)如何变化。信息增益的高分意味着更容易对分数进行分类。关于
SVMAttributeEval
,我从文档中复制:“它使用SVM分类器评估属性的价值。属性按照SVM分配的权重的平方进行排序。”换句话说,它大致遵循我上面描述的第二种方法。因此在Weka中,我可以执行第一个属性选择选项卡(或过滤器)使用搜索方法Ranker和属性评估度量InfogainatTributeval。然后我会得到排名最好的特征,并可以尝试不同的分类器,看看是否可以提高性能。对吗?