Warning: file_get_contents(/data/phpspider/zhask/data//catemap/9/java/342.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Java 可读性分类器采用哪种方法_Java_Weka_Svm_Classification - Fatal编程技术网

Java 可读性分类器采用哪种方法

Java 可读性分类器采用哪种方法,java,weka,svm,classification,Java,Weka,Svm,Classification,恐怕我对量词背后的理论理解不深,所以如果你觉得我的问题很幼稚,请原谅 目标: 给定任意文本,根据年龄范围(即可读性)对其进行分类。所以我的课程将是年龄范围(简化):5-6,6-8,8-10,10-14,14-16,成人。 理想情况下,每个文本文档都应该为这些类中的每个类(而不仅仅是最有可能的类)获取一个概率 当前状态: 特征提取器已就位。它为每个文本文档输出一个特征向量,大约有30个特征,几乎都是数字,其中有几个是标称的。 我正在试验用Weka训练模型,目前使用Weka中包含的SMO svm,通

恐怕我对量词背后的理论理解不深,所以如果你觉得我的问题很幼稚,请原谅

目标: 给定任意文本,根据年龄范围(即可读性)对其进行分类。所以我的课程将是年龄范围(简化):5-6,6-8,8-10,10-14,14-16,成人。 理想情况下,每个文本文档都应该为这些类中的每个类(而不仅仅是最有可能的类)获取一个概率

当前状态: 特征提取器已就位。它为每个文本文档输出一个特征向量,大约有30个特征,几乎都是数字,其中有几个是标称的。 我正在试验用Weka训练模型,目前使用Weka中包含的SMO svm,通过网格搜索进行优化。我也可以使用libSVM,但现在这并不重要

问题:

  • 对于这项任务,您是否会使用不同的分类器,尤其是使用每类概率对所需的输出进行wrt
  • 训练数据并没有被划分成如此不相交的范围。这些范围可能重叠。一些文本(手动)分类为10-12范围,另一些来自不同来源的文本分类为11-13或8-13等。您将如何处理?是否修改筛选/培训?不是修改它们,而是以不同的方式解释结果

  • 你可以试着做回归而不是分类——基本上你会试着预测阅读每个文档的“理想”年龄

    这将允许你处理不同的年龄范围,尽管还不完全清楚如何表示班级——也许只是从取平均值开始,所以对于8-12,正确的答案是10等(并稍微考虑一下“成人”的值)


    我的猜测是,这可能会导致对模型进行更稳健的估计,并且结果可以很好地解释——例如,如果你有很多关于8-12和12-15的例子,并且算法预测11.9,那么你可以说这对于8-12范围来说“几乎”是可以理解的。

    谢谢@ales\t。我是否正确理解回归预测连续变量的值?如果是,是否也有可能获得此类预测的概率(或置信度)?如果我想坚持使用分类变量,使用逻辑回归是一个好主意吗?