Algorithm 使用总成本在单个数据集上比较两种算法-使用哪种统计测试?

Algorithm 使用总成本在单个数据集上比较两种算法-使用哪种统计测试?,algorithm,statistics,weka,performance-testing,significance,Algorithm,Statistics,Weka,Performance Testing,Significance,我必须在不同的数据挖掘算法之间进行三种不同的比较 唯一有问题的比较类型是最基本的一种,一个数据集上的两种算法——对我来说就是有问题的一种 我知道Dietrich 1998年的论文提到McNemar和5x2CV是选择的选项,并指出重抽样t检验是不可行的。由于分析是使用子样本、60:40培训:测试分割和总成本作为性能度量的更大设置的一部分,因此我不能使用这些 在这种情况下,还有哪些其他选项可用于评估性能 符号测试:只需计算案例数量,两种算法中的每一种都表现得更好,然后使用二项分布检查p值。他看起来很

我必须在不同的数据挖掘算法之间进行三种不同的比较

唯一有问题的比较类型是最基本的一种,一个数据集上的两种算法——对我来说就是有问题的一种

我知道Dietrich 1998年的论文提到McNemar和5x2CV是选择的选项,并指出重抽样t检验是不可行的。由于分析是使用子样本、60:40培训:测试分割和总成本作为性能度量的更大设置的一部分,因此我不能使用这些

在这种情况下,还有哪些其他选项可用于评估性能

符号测试:只需计算案例数量,两种算法中的每一种都表现得更好,然后使用二项分布检查p值。他看起来很虚弱

Wilcoxon符号秩检验:作为t检验的非参数替代方法,这是我想到的第一个方法,但在任何关于此类比较的论文中都没有提到,仅用于使用多次迭代的平均性能结果在多个数据集上比较两个算法。是否不可行?如果不可行,原因是什么


两者之间的一个明显区别是Wilcoxon符号秩检验要求计算一对中两个成员之间的差异,然后对这些差异进行排序。如果对一对成员中的每个成员仅有的信息是数据挖掘过程是否正确猜测了其成员的类别,那么只有三种可能的有符号秩-1、0、1,Wilcoxon有符号秩检验将等同于McNemar检验,这实际上只是一种计算符号检验的近似尾值的方法。如果比较一对中的两个成员的结果是有意义的,而不是将它们相减得到一个数字,那么你又回到了符号测试


这听起来像是一个让你做大量统计测试的练习,但如果这是现实生活中的事情,我的第一个想法是找出你真正关心运行数据挖掘练习的原因,也许将其降低到金钱价值,然后寻找最能代表这一点的测试。

谢谢你的建议!任务性能度量始终是总成本。我正在针对一些以客户为中心的问题9运行一些算法15,例如欺诈检测。当我使用WEKA时,不能使用McNemar和5x2CV,因为它们必须在算法中使用,以直接比较每个实例的结果,WEKA不支持它们。因此,我只能使用聚合度量“总成本”,在不同的随机子样本上,10次迭代的总成本为10。在这种情况下,你认为Wilcoxon是一个合适的措施吗?符号测试非常弱。只是澄清一下:输出是2x两个算法10x 10次迭代,使用子样本<整个数据集总成本。您似乎在寻找每个实例的结果,以便您可以在假设每个对是独立的测试中为每个实例配对结果。这是一个非常有力的假设,因为特定运行中的所有对都来自于训练与测试样本的相同分割,这导致了相同的拟合模型参数集-我认为这就是所谓的随机可变性,因为选择了训练集。如果你能通过每次运行的总结,你可能会从实验输出文件中得到你所需要的一切。我在这方面没有太多实用的经验,但我倾向于获取尽可能多的数据——必要时使用多个数据集,以保持每个数据集大小的代表性,必要时使用隔夜运行。然后,由于分析的数据量之大,分析中的小问题或低效率变得无关紧要——如果有足够的数据将尾部问题转化为科学符号,你就可以不再担心统计意义,开始担心你计算得如此准确的差异的实际重要性。谢谢大量我实际上在9个数据集上运行了15个算法,计划稍后使用Friedman和Neymar获得更有趣的结果/结论,以防它们出现。仅对两种算法进行直接比较是为了首先了解某些数据预处理是否是一个好的选择,甚至是否有影响。我想我会使用所有三个重采样t检验+科恩的Kappa作为仍然经常使用的方法,重采样子集上的符号检验显示出至少相当低的I型错误,最后Wilcoxon作为违反