Java 矩阵TFIDF的降维

Java 矩阵TFIDF的降维,java,matrix,classification,tf-idf,Java,Matrix,Classification,Tf Idf,我计算了TFIdf(术语频率,逆文档频率),我发现在这一步之后,有必要使用LSI、卡方检验等方法降低矩阵的维数 我不知道如何在java中实现卡方检验以降低矩阵TFIDF的维数,如果有一些库可以这样做,或者有一些教程解释了我如何做到这一点,请告诉我使用gensims库进行LSA、LDA。 它实际上可以对任何大型数据集执行LSA。它不会立即将整个语料库加载到内存中,而是进行懒散的阅读。我认为你不想做卡方检验;这不是一种降维技术 你要做的是奇异值分解,或奇异值分解。这是LSI/LSA中用于降维的技术

我计算了TFIdf(术语频率,逆文档频率),我发现在这一步之后,有必要使用LSI、卡方检验等方法降低矩阵的维数


我不知道如何在java中实现卡方检验以降低矩阵TFIDF的维数,如果有一些库可以这样做,或者有一些教程解释了我如何做到这一点,请告诉我使用gensims库进行LSA、LDA。
它实际上可以对任何大型数据集执行LSA。它不会立即将整个语料库加载到内存中,而是进行懒散的阅读。

我认为你不想做卡方检验;这不是一种降维技术

你要做的是奇异值分解,或奇异值分解。这是LSI/LSA中用于降维的技术

Wikipedia建议在Java中使用一个名为“S-Space package”的LSA库。我自己没用过,但你可能想看看


您使用的是稀疏矩阵表示法吗?嗨,是的,larsmans,我计算了文档中每个术语的权重,为了减少,我使用了文档频率的方法,并删除了所有术语:如果文档频率Gensim非常好,但我相信OP正在寻找Java解决方案。Gensim是Python的代表。