Java 可读性分类器采用哪种方法
恐怕我对量词背后的理论理解不深,所以如果你觉得我的问题很幼稚,请原谅 目标: 给定任意文本,根据年龄范围(即可读性)对其进行分类。所以我的课程将是年龄范围(简化):5-6,6-8,8-10,10-14,14-16,成人。 理想情况下,每个文本文档都应该为这些类中的每个类(而不仅仅是最有可能的类)获取一个概率 当前状态: 特征提取器已就位。它为每个文本文档输出一个特征向量,大约有30个特征,几乎都是数字,其中有几个是标称的。 我正在试验用Weka训练模型,目前使用Weka中包含的SMO svm,通过网格搜索进行优化。我也可以使用libSVM,但现在这并不重要 问题:Java 可读性分类器采用哪种方法,java,weka,svm,classification,Java,Weka,Svm,Classification,恐怕我对量词背后的理论理解不深,所以如果你觉得我的问题很幼稚,请原谅 目标: 给定任意文本,根据年龄范围(即可读性)对其进行分类。所以我的课程将是年龄范围(简化):5-6,6-8,8-10,10-14,14-16,成人。 理想情况下,每个文本文档都应该为这些类中的每个类(而不仅仅是最有可能的类)获取一个概率 当前状态: 特征提取器已就位。它为每个文本文档输出一个特征向量,大约有30个特征,几乎都是数字,其中有几个是标称的。 我正在试验用Weka训练模型,目前使用Weka中包含的SMO svm,通
你可以试着做回归而不是分类——基本上你会试着预测阅读每个文档的“理想”年龄 这将允许你处理不同的年龄范围,尽管还不完全清楚如何表示班级——也许只是从取平均值开始,所以对于8-12,正确的答案是10等(并稍微考虑一下“成人”的值)
我的猜测是,这可能会导致对模型进行更稳健的估计,并且结果可以很好地解释——例如,如果你有很多关于8-12和12-15的例子,并且算法预测11.9,那么你可以说这对于8-12范围来说“几乎”是可以理解的。谢谢@ales\t。我是否正确理解回归预测连续变量的值?如果是,是否也有可能获得此类预测的概率(或置信度)?如果我想坚持使用分类变量,使用逻辑回归是一个好主意吗?