获取solr中pdf搜索结果的页码_Pdf_Solr_Full Text Search_Apache Tika_Solr Cell

获取solr中pdf搜索结果的页码

pdf solr

获取solr中pdf搜索结果的页码,pdf,solr,full-text-search,apache-tika,solr-cell,Pdf,Solr,Full Text Search,Apache Tika,Solr Cell,我正在构建一个web应用程序，用户可以在其中搜索pdf文档并使用pdf.js查看它们。我想显示搜索结果与一个简短的段落片段，其中搜索词在哪里找到，并链接到打开文件在正确的页面所以我需要的是页码和每个搜索结果的简短文本片段我正在使用Solr4.1为pdf文档编制索引。索引本身工作正常，但我不知道如何获取搜索结果的页码和段落我在这里找到了这个“”，但它并没有真正的帮助。有一个带有补丁的JIRA，您可以查看。我现在拆分PDF并将每个页面分别发送给SOLR。因此，每一页都是一个自己的文档，它有一

我正在构建一个web应用程序，用户可以在其中搜索pdf文档并使用pdf.js查看它们。我想显示搜索结果与一个简短的段落片段，其中搜索词在哪里找到，并链接到打开文件在正确的页面

所以我需要的是页码和每个搜索结果的简短文本片段

我正在使用Solr4.1为pdf文档编制索引。索引本身工作正常，但我不知道如何获取搜索结果的页码和段落

我在这里找到了这个“”，但它并没有真正的帮助。

有一个带有补丁的JIRA，您可以查看。

我现在拆分PDF并将每个页面分别发送给SOLR。

因此，每一页都是一个自己的文档，它有一个id

，还有一个额外的字段doc\u id，其中只包含用于对结果进行分组的
。
我也尝试使用页码获取结果，但无法做到这一点。我使用ApachePDFBox分割目录中的所有PDF，并将文件发送到Solr服务器 我自己没有试过。
方法,
Solr客户连接器与ApacheTika解析器集成，用于索引PDF
在Solr中创建多个属性，如page1、page2、page3…、pageN–或者，可以在Solr中使用动态属性
在customer connector中，逐页阅读PDF，将其索引到相应的页面属性/动态属性中
在所有“页面”属性上启用搜索
当用户搜索时，使用“highlighter/Summary/Trister”组件仅检索具有命中率的“页面”属性
对于给定记录具有命中（从highlighter/Summary/Trister中查找）的“页面”属性是具有搜索短语的页面
将PDF与PDF的“#页码”链接，然后单击弹出页面
与分割PDF并将其作为单独的Solr文档索引相比，这是一种更好的方法
如果你发现这个设计有缺陷，请回复我的帖子。我将尝试解决它。
Thx，但它似乎无法处理由Tika转换的pdf文件。我也怀疑这个补丁是否能与SOLR 4.1.Hi@Gesh一起使用。也许你可以分享一下你是如何分割你的PDF的？所以你用了两次PDFBox？在拆分时，然后在解析时？不。我只使用了一次PDFbox。我使用它将其拆分为多个页面，并在标题中输入父文件名。然后我将文件发送到Solr服务器，在那里我使用父文件名+页码的组合打开了文件。为什么这是一种“比将每个页面作为单独的文档编制索引好得多的方法”呢？可能是因为您不必保留所有PDF的2份副本？为什么需要这样做？您只需将每个页面的内容与相关文件名存储一次？您需要完整的PDF将其链接到搜索结果中的用户。您需要拆分PDF来为它们编制索引。2份。用户对拆分的PDF不感兴趣。搜索引擎对完整的PDF不感兴趣。抱歉，但它不是这样工作的-索引内容将是相同的，并且您仍然只需要一份PDF副本。编制索引的数据量没有差别，并且您不需要生成或保留拆分的pdf—在编制索引（即提取单个页面的内容）时，这完全可以在代码中完成。这不是问题。