你能给我推荐一个好的Java库来使用向量空间模型进行文本分类吗?

你能给我推荐一个好的Java库来使用向量空间模型进行文本分类吗?,java,text,classification,Java,Text,Classification,我需要提取几个文档的向量空间表示,然后计算它们之间的余弦距离 我想使用这个距离,使用k-最近邻方法对一些新文档进行分类 你对我可以使用的图书馆有什么建议吗 到目前为止,我看到Weka和Apache Lucene都应该支持向量空间模型,您认为哪一个最适合我的需要?Weka和Lucene是两种不同的方法 Weka是用于机器学习的通用工具箱。如果你想建立一个灵活的机器学习系统,你有时间/精力,你想能够做出任何改变,微调参数,规模不是问题,那么Weka是一个很好的选择 Lucene是专门处理文本的,如果

我需要提取几个文档的向量空间表示,然后计算它们之间的余弦距离

我想使用这个距离,使用k-最近邻方法对一些新文档进行分类

你对我可以使用的图书馆有什么建议吗


到目前为止,我看到Weka和Apache Lucene都应该支持向量空间模型,您认为哪一个最适合我的需要?

Weka和Lucene是两种不同的方法

Weka是用于机器学习的通用工具箱。如果你想建立一个灵活的机器学习系统,你有时间/精力,你想能够做出任何改变,微调参数,规模不是问题,那么Weka是一个很好的选择


Lucene是专门处理文本的,如果你想有一个快速的解决方案,可以轻松地处理文本、搜索类似的文档和处理大量数据,那么你应该使用它。这并不意味着Lucene处于劣势,当我们提到文本时正好相反。因此,为了方便地实现kNN,我会选择Lucene(祝您好运,规模-kNN的复杂性为N^2)。

Weka和Lucene是两种不同的方法

Weka是用于机器学习的通用工具箱。如果你想建立一个灵活的机器学习系统,你有时间/精力,你想能够做出任何改变,微调参数,规模不是问题,那么Weka是一个很好的选择

Lucene是专门处理文本的,如果你想有一个快速的解决方案,可以轻松地处理文本、搜索类似的文档和处理大量数据,那么你应该使用它。这并不意味着Lucene处于劣势,当我们提到文本时正好相反。因此,为了方便地实现kNN,我选择Lucene(祝您好运,scale-kNN的复杂性为N^2)