Java 可读性分类器采用哪种方法_Java_Weka_Svm_Classification

Java 可读性分类器采用哪种方法

java

Java 可读性分类器采用哪种方法,java,weka,svm,classification,Java,Weka,Svm,Classification,恐怕我对量词背后的理论理解不深，所以如果你觉得我的问题很幼稚，请原谅目标：给定任意文本，根据年龄范围（即可读性）对其进行分类。所以我的课程将是年龄范围（简化）：5-6，6-8，8-10，10-14，14-16，成人。理想情况下，每个文本文档都应该为这些类中的每个类（而不仅仅是最有可能的类）获取一个概率当前状态：特征提取器已就位。它为每个文本文档输出一个特征向量，大约有30个特征，几乎都是数字，其中有几个是标称的。我正在试验用Weka训练模型，目前使用Weka中包含的SMO svm，通

恐怕我对量词背后的理论理解不深，所以如果你觉得我的问题很幼稚，请原谅

目标： 给定任意文本，根据年龄范围（即可读性）对其进行分类。所以我的课程将是年龄范围（简化）：5-6，6-8，8-10，10-14，14-16，成人。理想情况下，每个文本文档都应该为这些类中的每个类（而不仅仅是最有可能的类）获取一个概率

当前状态： 特征提取器已就位。它为每个文本文档输出一个特征向量，大约有30个特征，几乎都是数字，其中有几个是标称的。我正在试验用Weka训练模型，目前使用Weka中包含的SMO svm，通过网格搜索进行优化。我也可以使用libSVM，但现在这并不重要

问题：

对于这项任务，您是否会使用不同的分类器，尤其是使用每类概率对所需的输出进行wrt

训练数据并没有被划分成如此不相交的范围。这些范围可能重叠。一些文本（手动）分类为10-12范围，另一些来自不同来源的文本分类为11-13或8-13等。您将如何处理？是否修改筛选/培训？不是修改它们，而是以不同的方式解释结果

你可以试着做回归而不是分类——基本上你会试着预测阅读每个文档的“理想”年龄

这将允许你处理不同的年龄范围，尽管还不完全清楚如何表示班级——也许只是从取平均值开始，所以对于8-12，正确的答案是10等（并稍微考虑一下“成人”的值）

我的猜测是，这可能会导致对模型进行更稳健的估计，并且结果可以很好地解释——例如，如果你有很多关于8-12和12-15的例子，并且算法预测11.9，那么你可以说这对于8-12范围来说“几乎”是可以理解的。

谢谢@ales\t。我是否正确理解回归预测连续变量的值？如果是，是否也有可能获得此类预测的概率（或置信度）？如果我想坚持使用分类变量，使用逻辑回归是一个好主意吗？