Machine learning 如何应对频繁上课?

Machine learning 如何应对频繁上课?,machine-learning,data-mining,classification,weka,supervised-learning,Machine Learning,Data Mining,Classification,Weka,Supervised Learning,我在Weka做一个分类任务,遇到一个问题,我要预测的类有一个非常频繁的值(大约85%)。这导致许多学习算法只是预测新数据集此类的频繁值 我如何处理这个问题?这是否只是意味着我没有找到足够好的功能来预测更好的东西?或者我能做些什么来解决这个问题 我想这是一个非常常见的问题,但我在这里找不到解决方案。您需要“破坏”您的数据。首先找出你还需要多少少数群体案例。在我的例子中,我想得到大约50/50的比例,所以我需要超过1300%的样本。如果您正在使用GUI,本教程将有所帮助:如果您正在使用Weka从命令

我在Weka做一个分类任务,遇到一个问题,我要预测的类有一个非常频繁的值(大约85%)。这导致许多学习算法只是预测新数据集此类的频繁值

我如何处理这个问题?这是否只是意味着我没有找到足够好的功能来预测更好的东西?或者我能做些什么来解决这个问题

我想这是一个非常常见的问题,但我在这里找不到解决方案。

您需要“破坏”您的数据。首先找出你还需要多少少数群体案例。在我的例子中,我想得到大约50/50的比例,所以我需要超过1300%的样本。如果您正在使用GUI,本教程将有所帮助:如果您正在使用Weka从命令行执行此操作,则以下命令将帮助您:

#Weka 3.7.7
java weka.Run -no-scan weka.filters.supervised.instance.SMOTE \
-c last -K 25 -P 1300.0 -S 1 -i input.arff  -o  output.arff
K选项是在屏蔽数据时要考虑的邻居数。默认值为5,但25对我的数据集最有效

你需要“破坏”你的数据。首先找出你还需要多少少数群体案例。在我的例子中,我想得到大约50/50的比例,所以我需要超过1300%的样本。如果您正在使用GUI,本教程将有所帮助:如果您正在使用Weka从命令行执行此操作,则以下命令将帮助您:

#Weka 3.7.7
java weka.Run -no-scan weka.filters.supervised.instance.SMOTE \
-c last -K 25 -P 1300.0 -S 1 -i input.arff  -o  output.arff

K选项是在屏蔽数据时要考虑的邻居数。默认值为5,但25对我的数据集最有效

可能重复的,以及其他几个问题。非常感谢您的快速帮助!这些问题为我提供了如何命名该问题(以及如何解决该问题)的提示。如果我弄错了,对不起。Weka使用它们的方式与我第一次学习时完全不同。是的,Weka对术语的使用有些奇怪。(而且更广泛的ML社区有时在选择术语方面有问题……)的可能重复,以及其他一些问题。非常感谢您的快速帮助!这些问题为我提供了如何命名该问题(以及如何解决该问题)的提示。如果我弄错了,对不起。Weka使用它们的方式与我第一次学习时完全不同。是的,Weka对术语的使用有些奇怪。(而且更广泛的ML社区有时在选择术语时会遇到问题…)谢谢!作为解决方案的一个补充:元分类器FilteredClassifier协助完成此操作(元/过滤分类器)。特别是在测试需要多少过度采样(需要添加多少人工数据集)时。谢谢!作为解决方案的一个补充:元分类器FilteredClassifier协助完成此操作(元/过滤分类器)。特别是在测试需要多少过度采样时(需要添加多少人工数据集)。