如何在web应用程序中集成数据库搜索和pdf搜索?

如何在web应用程序中集成数据库搜索和pdf搜索?,pdf,lucene,apache-tika,Pdf,Lucene,Apache Tika,我有一个带有自定义搜索引擎的jsp web应用程序 搜索引擎基本上构建在SQL Server数据库的“文档”表之上 举例来说,每个文档记录有三个字段: 文件id “Description”(文本字段) “附件”,文件系统中pdf文件的路径 搜索引擎实际上在描述字段中搜索关键字,并在HTML页面中返回结果列表。现在我想搜索关键字,甚至在pdf文件的内容 我正在调查Lucene、Tika和Solr,但我不明白如何使用这些框架实现我的目标 一个可能的解决方案是:使用Tika提取pdf内容并存储在新

我有一个带有自定义搜索引擎的jsp web应用程序

搜索引擎基本上构建在SQL Server数据库的“文档”表之上

举例来说,每个文档记录有三个字段:

  • 文件id
  • “Description”(文本字段)
  • “附件”,文件系统中pdf文件的路径
搜索引擎实际上在描述字段中搜索关键字,并在HTML页面中返回结果列表。现在我想搜索关键字,甚至在pdf文件的内容

我正在调查Lucene、Tika和Solr,但我不明白如何使用这些框架实现我的目标

一个可能的解决方案是:使用Tika提取pdf内容并存储在新的文档表字段中,这样我就可以在该字段上编写SQL查询

有更好的选择吗? 我可以使用Solr/Lucene索引功能作为基于SQL的搜索引擎的集成,而不是完全替代它吗


谢谢

< P> >我认为Lucene完全独立于SQL数据库,也就是说,你不会使用SQL/JDBC/任意数据库来查询Lucene,而是使用它自己的API和它自己的数据存储。p> 当然,您可以使用Tika提取pdf的全文,存储它,并使用SQL DB提供的任何内容。全文搜索能力


如果您使用的是Hibernate,那么它是一款集成了SQL存储和Lucene的优秀产品。但是您必须采用Hibernate/JPA方式,这可能会对您的项目造成过度伤害。

不,不幸的是,Hibernate不是此项目的选项。谢谢