Frameworks 文档相似性框架

Frameworks 文档相似性框架,frameworks,lucene,search-engine,Frameworks,Lucene,Search Engine,我想创建一个应用程序,在其数据库中搜索类似的文档;用户上传文档(文本、图像等),我想在我的应用程序中查询类似的文档 我已经为这个过程创建了必要的算法(指纹识别、特征提取、散列、散列比较等),我正在寻找一个将所有这些结合起来的框架 例如,如果我将在Lucene中实现它,我将执行以下操作: 创建自定义“标记器”和“词干分析器”(~特征提取和指纹) 而不是将创建的元素添加到Lucene索引 最后使用MoreLikeThis类查找类似的文档 所以,基本上Lucene可能是一个不错的选择——但据我所知

我想创建一个应用程序,在其数据库中搜索类似的文档;用户上传文档(文本、图像等),我想在我的应用程序中查询类似的文档

我已经为这个过程创建了必要的算法(指纹识别、特征提取、散列、散列比较等),我正在寻找一个将所有这些结合起来的框架

例如,如果我将在Lucene中实现它,我将执行以下操作:

  • 创建自定义“标记器”和“词干分析器”(~特征提取和指纹)
  • 而不是将创建的元素添加到Lucene索引
  • 最后使用MoreLikeThis类查找类似的文档
所以,基本上Lucene可能是一个不错的选择——但据我所知,Lucene并不是一个文档相似性搜索引擎,而是一个基于术语的搜索引擎

我的问题是:是否有适合上述问题的应用程序/框架

谢谢, 克里斯蒂

更新:我上面描述的过程似乎被称为基于内容的媒体(声音、图像、视频)检索


有许多项目使用Lucene来实现这一点,请参见:(Lire,Samele,等等),但仍然没有找到任何专用框架…

如果我理解正确,您有自己的数据库,并且您正在用户上传时/之后在数据库中搜索其副本或副本/类似项

如果是这样的话,相比之下,这个领域是非常大的

1) 对于图像,您必须使用模式匹配,可用于图像复制查找器的纸张很少,在网上搜索,您将获得许多选项

2) 对于文档,又有一个典型的划分

  • 文件(x)
  • PDF
  • 文本
  • RTF等
  • 每个文档都有不同的属性,现在这里的
    Lucene
    可能会帮助您,但它的搜索引擎

    在搜索语言模式时,我们需要检查很多东西,因为您正在搜索相似的(不完全相同的)

    所以,模糊语言程序将派上用场


    这个要求太大了,论坛页面不足以解释所有内容,我希望这个要求可以满足你的要求,因为你使用的是Lucene,你可以看看SOLR。我确实意识到它也不是一个专门用于您的目的的框架,但它确实在Lucene之上添加了一些非常方便的东西。考虑到Lucene的可插拔性、它的历史记录以及存在大量有用资源的事实,SOLR可能会帮助您完成工作


    此外,@mindas所指的链接还介绍了如何使用SOLR实现目标的技术细节(但您可能已经读过了)。

    看一看,我认为它解决了同样的问题。谢谢;它证实了我最初的想法可以在Lucene中实现!:-)但是还有其他专门为这个任务设计的框架吗?我听说过,但这是为Python设计的。不确定Java是否也有类似的功能;我在找类似的东西,是的!Solr看起来不错-会仔细看看的!这篇博文——是的,我读过——看起来很棒;我自己的想法有点类似。谢谢我确实意识到,这是一个巨大的领域——我知道我只对找到适合这份工作的最佳工具感兴趣。关于论坛页面的大小;这提醒了我:“我发现了一个关于这一点的真正奇妙的证据,这个空白太窄了,无法容纳”:-)我见过lucene,但对此不太了解,所以cna不这么说,但我知道使用神经语言,或模糊逻辑,你可以找到重复的,使用神经语言,你可以创建一个模式,使用模糊数学可以分析和匹配它们。SPSS工具是一种统计工具,只有在我记忆正确的情况下才能处理包含文件的文本。它的演示是免费的。如果它与
    http://www.ats.ucla.edu/stat/spss/faq/update.htm
    :)SPSS是一款非常酷的软件,但不是满足我需求的框架:-(