获取solr中pdf搜索结果的页码

获取solr中pdf搜索结果的页码,pdf,solr,full-text-search,apache-tika,solr-cell,Pdf,Solr,Full Text Search,Apache Tika,Solr Cell,我正在构建一个web应用程序,用户可以在其中搜索pdf文档并使用pdf.js查看它们。我想显示搜索结果与一个简短的段落片段,其中搜索词在哪里找到,并链接到打开文件在正确的页面 所以我需要的是页码和每个搜索结果的简短文本片段 我正在使用Solr4.1为pdf文档编制索引。索引本身工作正常,但我不知道如何获取搜索结果的页码和段落 我在这里找到了这个“”,但它并没有真正的帮助。有一个带有补丁的JIRA,您可以查看。我现在拆分PDF并将每个页面分别发送给SOLR。 因此,每一页都是一个自己的文档,它有一

我正在构建一个web应用程序,用户可以在其中搜索pdf文档并使用pdf.js查看它们。我想显示搜索结果与一个简短的段落片段,其中搜索词在哪里找到,并链接到打开文件在正确的页面

所以我需要的是页码和每个搜索结果的简短文本片段

我正在使用Solr4.1为pdf文档编制索引。索引本身工作正常,但我不知道如何获取搜索结果的页码和段落


我在这里找到了这个“”,但它并没有真正的帮助。

有一个带有补丁的JIRA,您可以查看。

我现在拆分PDF并将每个页面分别发送给SOLR。
因此,每一页都是一个自己的文档,它有一个id
,还有一个额外的字段doc\u id,其中只包含用于对结果进行分组的

我也尝试使用页码获取结果,但无法做到这一点。我使用ApachePDFBox分割目录中的所有PDF,并将文件发送到Solr服务器

我自己没有试过。 方法,

  • Solr客户连接器与ApacheTika解析器集成,用于索引PDF
  • 在Solr中创建多个属性,如page1、page2、page3…、pageN–或者,可以在Solr中使用动态属性
  • 在customer connector中,逐页阅读PDF,将其索引到相应的页面属性/动态属性中
  • 在所有“页面”属性上启用搜索
  • 当用户搜索时,使用“highlighter/Summary/Trister”组件仅检索具有命中率的“页面”属性
  • 对于给定记录具有命中(从highlighter/Summary/Trister中查找)的“页面”属性是具有搜索短语的页面
  • 将PDF与PDF的“#页码”链接,然后单击弹出页面
  • 与分割PDF并将其作为单独的Solr文档索引相比,这是一种更好的方法


    如果你发现这个设计有缺陷,请回复我的帖子。我将尝试解决它。

    Thx,但它似乎无法处理由Tika转换的pdf文件。我也怀疑这个补丁是否能与SOLR 4.1.Hi@Gesh一起使用。也许你可以分享一下你是如何分割你的PDF的?所以你用了两次PDFBox?在拆分时,然后在解析时?不。我只使用了一次PDFbox。我使用它将其拆分为多个页面,并在标题中输入父文件名。然后我将文件发送到Solr服务器,在那里我使用父文件名+页码的组合打开了文件。为什么这是一种“比将每个页面作为单独的文档编制索引好得多的方法”呢?可能是因为您不必保留所有PDF的2份副本?为什么需要这样做?您只需将每个页面的内容与相关文件名存储一次?您需要完整的PDF将其链接到搜索结果中的用户。您需要拆分PDF来为它们编制索引。2份。用户对拆分的PDF不感兴趣。搜索引擎对完整的PDF不感兴趣。抱歉,但它不是这样工作的-索引内容将是相同的,并且您仍然只需要一份PDF副本。编制索引的数据量没有差别,并且您不需要生成或保留拆分的pdf—在编制索引(即提取单个页面的内容)时,这完全可以在代码中完成。这不是问题。