Java 两个微粒的Tf-Idf计算_Java_Tf Idf_Cosine Similarity_Inverted Index

Java 两个微粒的Tf-Idf计算

java

Java 两个微粒的Tf-Idf计算,java,tf-idf,cosine-similarity,inverted-index,Java,Tf Idf,Cosine Similarity,Inverted Index,我有两个语料库（语料库1和语料库2），语料库1中的文档包含来自语料库2的剽窃句子。我使用Tf Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似性语料库2中术语的反向索引已经建立，如下所示：简而言之，对于每两个句子的比较，我构建了两个Tf-Idf向量，然后使用余弦相似性度量相似性我的问题是，在构建与语料库1中的句子相关的向量的过程中，我使用语料库2索引通过总结与X术语相关的文档来获得Idf，这是一种正确的方法吗！？由于语料库1中的某些术语在语料库2中不可用，Tf idf函数将为

我有两个语料库（语料库1和语料库2），语料库1中的文档包含来自语料库2的剽窃句子。我使用Tf Idf方法来衡量语料库1中的文档与语料库2中的文档之间的相似性

语料库2中术语的反向索引已经建立，如下所示：

简而言之，对于每两个句子的比较，我构建了两个Tf-Idf向量，然后使用余弦相似性度量相似性

我的问题是，在构建与语料库1中的句子相关的向量的过程中，我使用语料库2索引通过总结与X术语相关的文档来获得Idf，这是一种正确的方法吗！？由于语料库1中的某些术语在语料库2中不可用，Tf idf函数将为这些术语返回0！或者我必须为语料库1建立另一个索引（我认为这将消除Tf idf能力）。

我们必须为目标语料库编制索引，我们需要完成我们的工作，例如：如果我们有两个小体，一个是原创的，一个是剽窃的。我们必须索引原始的，因为我们需要搜索