Filter WEKA的重采样过滤器-如何解释结果

Filter WEKA的重采样过滤器-如何解释结果,filter,machine-learning,weka,Filter,Machine Learning,Weka,我目前正在处理一个机器学习问题,而我必须处理大量不平衡的数据集。也就是说,有六个类('1','2','6')。不幸的是,例如,“1”类有150个示例/实例,“2”类有90个实例,而“3”类只有20个。所有其他类都不能“训练”,因为这些类没有可用的实例 到目前为止,我发现WEKA(我正在使用的机器学习工具包)提供了这种有监督的“重采样”过滤器。当我使用'noReplacement'=false和'bialToUniformClass'=1.0应用此过滤器时,这将产生一个数据集,其中实例的数量很好并

我目前正在处理一个机器学习问题,而我必须处理大量不平衡的数据集。也就是说,有六个类('1','2','6')。不幸的是,例如,“1”类有150个示例/实例,“2”类有90个实例,而“3”类只有20个。所有其他类都不能“训练”,因为这些类没有可用的实例

到目前为止,我发现WEKA(我正在使用的机器学习工具包)提供了这种有监督的“重采样”过滤器。当我使用'noReplacement'=false和'bialToUniformClass'=1.0应用此过滤器时,这将产生一个数据集,其中实例的数量很好并且几乎相等(对于类'1'…'3',其他保持为空)

我现在的问题是:WEKA和这个过滤器如何为不同的类生成“新的”/额外的实例

提前非常感谢您的任何提示或建议

干杯
Julian使用WEKA的监督重采样过滤器将实例添加到类中。这可以通过简单地将只有少数实例的类中的实例多次添加到结果数据集中来实现


因此,结果数据集在一个只有少数样本可用的类方面有很大的偏差。

它没有。它正在对现有实例重新采样。如果您有一个class-2实例,并要求偏差为1.0的重采样,那么您可以期望该实例的N个副本以及已经有数据的每种其他类型的N个其他实例

在预处理中尝试使用过滤器

它通过为次要类生成新数据来平衡数据集