Java 如何在ApacheMahout中对数值数据进行分类?

Java 如何在ApacheMahout中对数值数据进行分类?,java,hadoop,machine-learning,classification,mahout,Java,Hadoop,Machine Learning,Classification,Mahout,我有一个格式为类、单字符计数、双字符计数、情感的数字数据集。我浏览了一些ApacheMahout文档,都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,将其传递给训练朴素贝叶斯分类器。但我很难理解在Mahout中对文本数据集和数字数据集进行分类的区别。在我的情况下,我需要做哪些不同的事情?我非常感谢您的帮助。您可能知道,mahout不能使用文本数据来训练模型。如果从数字数据集开始,分类将更加容易,因为mahout处理的向量是数字数据向量 我在文本数据集上使用了m

我有一个格式为
类、单字符计数、双字符计数、情感的数字数据集。我浏览了一些ApacheMahout文档,都是关于文本数据的。我知道我需要执行3个步骤来分类:转换为序列文件,矢量化序列文件,将其传递给训练朴素贝叶斯分类器。但我很难理解在Mahout中对文本数据集和数字数据集进行分类的区别。在我的情况下,我需要做哪些不同的事情?我非常感谢您的帮助。

您可能知道,mahout不能使用文本数据来训练模型。如果从数字数据集开始,分类将更加容易,因为mahout处理的向量是数字数据向量

我在文本数据集上使用了mahout,我知道在这种情况下,我必须使用dictionnary将文本数据转换为数字数据。有些算法比其他算法处理得更好(例如,朴素贝叶斯(naivebayes)非常喜欢类似文本的数据)


因此,在您的情况下,尝试使用其他分类器,如随机forrest或在线逻辑回归,以获得更有效的结果。根据我的经验,使用random forrest,你可以定义你拥有的特征类型(在你的例子中,你所有的特征都是数字的),这样分类就很容易了。如果您想坚持使用Naive Bayes,我相信仍然可以对您的数字数据集进行分类,但我从未使用过它,因此无法提供更多帮助。

感谢您的见解。这是我第一次尝试使用Mahout,我在网上找不到任何使用Mahout进行数字数据分类的示例。我同意很难在网上找到示例,在我的作品中,我改编了《Mahout在行动》一书中的代码和一些在线给出的代码。试着检查一下这个:你应该能够用数字版本来调整代码(你不需要使用文本分析器/标记器,这是关于像数据一样对文本进行分类的复杂事情),谢谢你的参考!