Java 两个微粒的Tf-Idf计算

Java 两个微粒的Tf-Idf计算,java,tf-idf,cosine-similarity,inverted-index,Java,Tf Idf,Cosine Similarity,Inverted Index,我有两个语料库(语料库1和语料库2),语料库1中的文档包含来自语料库2的剽窃句子。我使用Tf Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似性 语料库2中术语的反向索引已经建立,如下所示: 简而言之,对于每两个句子的比较,我构建了两个Tf-Idf向量,然后使用余弦相似性度量相似性 我的问题是,在构建与语料库1中的句子相关的向量的过程中,我使用语料库2索引通过总结与X术语相关的文档来获得Idf,这是一种正确的方法吗!?由于语料库1中的某些术语在语料库2中不可用,Tf idf函数将为

我有两个语料库(语料库1和语料库2),语料库1中的文档包含来自语料库2的剽窃句子。我使用Tf Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似性

语料库2中术语的反向索引已经建立,如下所示:

简而言之,对于每两个句子的比较,我构建了两个Tf-Idf向量,然后使用余弦相似性度量相似性


我的问题是,在构建与语料库1中的句子相关的向量的过程中,我使用语料库2索引通过总结与X术语相关的文档来获得Idf,这是一种正确的方法吗!?由于语料库1中的某些术语在语料库2中不可用,Tf idf函数将为这些术语返回0!或者我必须为语料库1建立另一个索引(我认为这将消除Tf idf能力)。

我们必须为目标语料库编制索引,我们需要完成我们的工作,例如: 如果我们有两个小体,一个是原创的,一个是剽窃的。 我们必须索引原始的,因为我们需要搜索