正在寻找一个java库,其中包含一个易于计算的tf–;idf,术语频率–;逆文档频率

正在寻找一个java库,其中包含一个易于计算的tf–;idf,术语频率–;逆文档频率,java,nlp,tf-idf,Java,Nlp,Tf Idf,我需要计算一组文档的tf-idf,我正在寻找一个java库来实现这一点 注意:我知道Mahout,但我真正想要的是一个具有简单界面且不需要基础设施设置的库。Mahout易于使用和安装。您只需要JDK环境和maven。 您还可以将hadoop与mahout结合使用,这不是必须的(您可以在没有hadoop的情况下在本地运行mahout)。不过,您会发现这对安装hadoop很有帮助。Mahout中的类只是对Lucene的简单调用。它们不需要基础设施,特别是如果你阅读它们(它们是开源的),你能帮我吗

我需要计算一组文档的tf-idf,我正在寻找一个java库来实现这一点


注意:我知道Mahout,但我真正想要的是一个具有简单界面且不需要基础设施设置的库。

Mahout易于使用和安装。您只需要JDK环境和maven。


您还可以将hadoop与mahout结合使用,这不是必须的(您可以在没有hadoop的情况下在本地运行mahout)。不过,您会发现这对安装hadoop很有帮助。

Mahout中的类只是对Lucene的简单调用。它们不需要基础设施,特别是如果你阅读它们(它们是开源的),你能帮我吗