Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/rest/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 什么';使用WEKAAPI对高维整数向量进行分类的最佳方法是什么?_Java_Classification_Weka_Bayesian_Decision Tree - Fatal编程技术网

Java 什么';使用WEKAAPI对高维整数向量进行分类的最佳方法是什么?

Java 什么';使用WEKAAPI对高维整数向量进行分类的最佳方法是什么?,java,classification,weka,bayesian,decision-tree,Java,Classification,Weka,Bayesian,Decision Tree,我有一些整数的高维(30000维)向量。我有两门课:[是,不是]。我有6000个是类的样品和50000个非类的样品。我想训练一个分类器,将来自动将新样本分类到其中一个类中 我知道如何使用wekajavaapi,但我不确定使用哪种算法。有人能就以下问题给我一些建议吗 向量的维数是否太高,或者我是否有太多的样本在Weka中无法有效地执行此操作 我应该在开始之前降低维度吗?我可以使用什么算法来识别特征向量的重要元素 哪种分类器最适合对此类数据进行分类?我认为决策树应该可以很好地工作,但也许朴素的贝叶斯

我有一些整数的高维(30000维)向量。我有两门课:[是,不是]。我有6000个是类的样品和50000个非类的样品。我想训练一个分类器,将来自动将新样本分类到其中一个类中

我知道如何使用wekajavaapi,但我不确定使用哪种算法。有人能就以下问题给我一些建议吗

  • 向量的维数是否太高,或者我是否有太多的样本在Weka中无法有效地执行此操作
  • 我应该在开始之前降低维度吗?我可以使用什么算法来识别特征向量的重要元素
  • 哪种分类器最适合对此类数据进行分类?我认为决策树应该可以很好地工作,但也许朴素的贝叶斯训练更快,是吗
  • 既然每个元素在weka中都必须有一个名称,那么我如何为我的30000个特性中的每一个指定一个名称呢
  • 任何建议都将不胜感激。谢谢

  • 这个问题的维数肯定很大,但我相信Weka应该能够处理大量的维数。样本的数量应该不会有问题,但是没有类的样本要比有YES类的样本多得多,因此平衡两者可能有助于更好地对没有类的案例进行分类

  • 如果您认为存在冗余尺寸或某些尺寸可能包含噪波,那么这肯定会有所帮助

  • 决策树不应该是太大的问题。Weka中有许多可用的算法,但鉴于问题的维数,我不推荐使用神经网络

  • 如果已将数据保存在CSV文件中,则可以在数据的第一行中指定属性名称。通过这种方式,可以指定属性名称。给定维度的数量,您可能会调用a1到30000,并为输出类调用输出

  • 希望这有帮助