Machine learning 如何应对频繁上课？_Machine Learning_Data Mining_Classification_Weka_Supervised Learning

Machine learning 如何应对频繁上课？

machine-learning

Machine learning 如何应对频繁上课？,machine-learning,data-mining,classification,weka,supervised-learning,Machine Learning,Data Mining,Classification,Weka,Supervised Learning,我在Weka做一个分类任务，遇到一个问题，我要预测的类有一个非常频繁的值（大约85%）。这导致许多学习算法只是预测新数据集此类的频繁值我如何处理这个问题？这是否只是意味着我没有找到足够好的功能来预测更好的东西？或者我能做些什么来解决这个问题我想这是一个非常常见的问题，但我在这里找不到解决方案。您需要“破坏”您的数据。首先找出你还需要多少少数群体案例。在我的例子中，我想得到大约50/50的比例，所以我需要超过1300%的样本。如果您正在使用GUI，本教程将有所帮助：如果您正在使用Weka从命令

我在Weka做一个分类任务，遇到一个问题，我要预测的类有一个非常频繁的值（大约85%）。这导致许多学习算法只是预测新数据集此类的频繁值

我如何处理这个问题？这是否只是意味着我没有找到足够好的功能来预测更好的东西？或者我能做些什么来解决这个问题

我想这是一个非常常见的问题，但我在这里找不到解决方案。

您需要“破坏”您的数据。首先找出你还需要多少少数群体案例。在我的例子中，我想得到大约50/50的比例，所以我需要超过1300%的样本。如果您正在使用GUI，本教程将有所帮助：如果您正在使用Weka从命令行执行此操作，则以下命令将帮助您：

#Weka 3.7.7
java weka.Run -no-scan weka.filters.supervised.instance.SMOTE \
-c last -K 25 -P 1300.0 -S 1 -i input.arff  -o  output.arff

K选项是在屏蔽数据时要考虑的邻居数。默认值为5，但25对我的数据集最有效

你需要“破坏”你的数据。首先找出你还需要多少少数群体案例。在我的例子中，我想得到大约50/50的比例，所以我需要超过1300%的样本。如果您正在使用GUI，本教程将有所帮助：如果您正在使用Weka从命令行执行此操作，则以下命令将帮助您：

#Weka 3.7.7
java weka.Run -no-scan weka.filters.supervised.instance.SMOTE \
-c last -K 25 -P 1300.0 -S 1 -i input.arff  -o  output.arff

K选项是在屏蔽数据时要考虑的邻居数。默认值为5，但25对我的数据集最有效

可能重复的，以及其他几个问题。非常感谢您的快速帮助！这些问题为我提供了如何命名该问题（以及如何解决该问题）的提示。如果我弄错了，对不起。Weka使用它们的方式与我第一次学习时完全不同。是的，Weka对术语的使用有些奇怪。（而且更广泛的ML社区有时在选择术语方面有问题……）的可能重复，以及其他一些问题。非常感谢您的快速帮助！这些问题为我提供了如何命名该问题（以及如何解决该问题）的提示。如果我弄错了，对不起。Weka使用它们的方式与我第一次学习时完全不同。是的，Weka对术语的使用有些奇怪。（而且更广泛的ML社区有时在选择术语时会遇到问题…）谢谢！作为解决方案的一个补充：元分类器FilteredClassifier协助完成此操作（元/过滤分类器）。特别是在测试需要多少过度采样（需要添加多少人工数据集）时。谢谢！作为解决方案的一个补充：元分类器FilteredClassifier协助完成此操作（元/过滤分类器）。特别是在测试需要多少过度采样时（需要添加多少人工数据集）。