Java lucene API文本相似性

Java lucene API文本相似性,java,lucene,nlp,information-retrieval,Java,Lucene,Nlp,Information Retrieval,我正在写一个关于用Java检测剽窃的项目, 在本例中,对于第一步,我需要执行以下任务: inputing file (txt, .pdf, .doc) convert the file content to text removing stop words tokenizng into n-gram processing the text-similarity algorithms on the texts reporting plagiarism detection signs 我是通过自

我正在写一个关于用Java检测剽窃的项目, 在本例中,对于第一步,我需要执行以下任务:

inputing  file (txt, .pdf, .doc)
convert the file content to text
removing stop words
tokenizng into n-gram
processing the text-similarity algorithms on the texts
reporting plagiarism detection signs
我是通过自己编写代码来完成这些步骤的,但现在我觉得它缺乏很多性能,所以我开始在我的工作中使用可用的API es,例如word vector tool()、wordnet和
Lucene
。vvtool因可用的文档不足而失败。 现在我的问题是如何使用Lucene实现这些,我应该将文件作为字符串输入,并将其作为字段添加到文档对象中,还是它有专门的文本相似性检查类? 请在
Lucene
Library上帮助我。 提前谢谢


Ps-你有任何关于Lucene的示例代码源代码可以让我开始吗

我不知道lucene,但对于文本相似性,您可以使用ws4j库或。

我用于相似性库的代码如下:

final SentenceSimilarityAssessor s=new SentenceSimilarityAssessor();
s.getSearchEngineHungarianSentenceSimilarity(s1, s2, SimilarityConstants.GOOGLE, SimilarityConstants.NGD_MEASURE, SimilarityConstants.TURNEY_SCORE_1);

你可以试试这个。

谢谢,我下载了jar文件,但是我在哪里可以找到一些关于ws4j的好例子和文档呢?即使是除了它自己的演示文件,我也没有找到很多好例子。你提到的相似性库呢?你能给我一个链接吗?你是说wordnet图书馆?是的。就连我也面临同样的问题。没有或很少有帮助。请检查我的原始答案我粘贴了相似性库链接它是开源库吗?因为我以前试图通过向此处的地址()发送电子邮件来获取它,但没有任何回复。将出现错误,似乎SentReceibilityAssessor在以下路径中搜索文件:C:\work\montytagger-1.2\python\JMontyTagger.py,但没有JMontyTagger.py文件,我可以将其放置在那里!!我认为我的包不完整或遗漏了一些东西,而且文件夹中没有文档。您确定已提取jar文件sim_library.jar并将其添加到项目的构建路径中吗?因为jmontyTagger和所有其他文件都存在于jar中。你在做什么?一个建议:解压缩你从他们那里得到的文件夹。从这个解压缩的源代码创建一个eclipse项目。然后您将在src文件夹中看到3个演示类。然后你可以编译并制作一个jar文件,并将其用于你的目的。我拥有的zip文件夹是:`SIMILARITYLIBRARY\u RELEASE`,它有以下文件夹:[形容词收件箱副词索引bin lib nouneIndex senseIndex相似性lib src stopw‌​在lib文件夹中有一些.jar文件,我将它们全部添加到了项目中sim_lib.jar也在那里添加了,simlibrary_lib文件夹中有一些jar文件,我也添加了它们。我提取了sim_lib.jar,它包含了我提到的那些文件夹和类:assesors searchengin Similarity没有编译错误!所有的类都已解决,好的,我说的错误在运行时。