Lucene 卢森。如何构建术语文档矩阵

Lucene 卢森。如何构建术语文档矩阵,lucene,matrix,tf-idf,Lucene,Matrix,Tf Idf,我需要建立那个矩阵,但我找不到一种方法来计算每个单元的标准化tf idf。 我将执行的标准化是余弦标准化,即每1/sqrt(列中的sumOfSquaredtf-idf)除以tf-idf(使用计算) 有人知道这样做的方法吗? 提前感谢 Antonio中描述了一种不使用Lucene的方法。或者,您可以构建一个Lucene索引,每个字段都有术语向量,迭代术语以获得idf,然后迭代术语的文档以获得tf


我需要建立那个矩阵,但我找不到一种方法来计算每个单元的标准化tf idf。 我将执行的标准化是余弦标准化,即每1/sqrt(列中的sumOfSquaredtf-idf)除以tf-idf(使用计算)

有人知道这样做的方法吗?
提前感谢

Antonio

中描述了一种不使用Lucene的方法。或者,您可以构建一个Lucene索引,每个字段都有术语向量,迭代术语以获得idf,然后迭代术语的文档以获得tf