SOLR/LUCENE专家,请帮助我从PDF索引设计一个简单的关键字搜索?

SOLR/LUCENE专家,请帮助我从PDF索引设计一个简单的关键字搜索?,pdf,lucene,solr,full-text-search,keyword,Pdf,Lucene,Solr,Full Text Search,Keyword,我涉猎过solr,但想不出一个方法来适应我的生活 我所拥有的: 一堆PDF文件。 一组关键字 我正在努力实现的目标: 索引PDF文件(solrcell-done) 搜索关键字(正常工作) 定制输出以吐出PDF文件的名称,这是关键字出现的摘录(不知道如何) 尝试操纵ResponseHandler/Schema.xml/Solrconfig.xml,但无效 Lucene/solr专家们,你们认为我正在努力实现的目标是可能的吗 我将现有代码放在github@(这主要是solr的默认示例,对字段进行了少

我涉猎过solr,但想不出一个方法来适应我的生活

我所拥有的:

一堆PDF文件。 一组关键字

我正在努力实现的目标:

索引PDF文件(solrcell-done) 搜索关键字(正常工作) 定制输出以吐出PDF文件的名称,这是关键字出现的摘录(不知道如何)

尝试操纵ResponseHandler/Schema.xml/Solrconfig.xml,但无效

Lucene/solr专家们,你们认为我正在努力实现的目标是可能的吗

我将现有代码放在github@(这主要是solr的默认示例,对字段进行了少量修改(所有内容都存储在一个内容字段中)

schema.xml中的显著变化包括:

Schema.xml:

<solrQueryParser defaultOperator="AND"/>

   <field name="id" type="string" indexed="true" stored="true" required="true" />

   <field name="content" type="text_general" indexed="true" stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/>

   <dynamicField name="*" type="string"    indexed="true"  stored="true" multiValued="true" termVectors="true" termPositions="true" termOffsets="true"/>

<solrQueryParser defaultOperator="AND"/>

<copyField source="*" dest="content"/>

电流输出:

(查询)

013on0Java Servlet2.210
应用程序/pdftutorial.pdfSolrSolr教程
我要找的是“找到关键字的提取片段(行)”


在提供的查询中,我搜索“Java Servlet”,它返回了文档。我对输出xml中返回的上下文“Solr可以在您选择的任何Java Servlet容器中运行”感兴趣。

要获取匹配关键字周围的文本片段,请参阅


要获取索引PDF的文件名作为响应的一部分,只需添加一个包含该信息的字段(它应该是一个字符串字段,未索引,已存储)。当然,您必须在索引时填充此新字段。

要获取匹配关键字周围的文本片段,请参阅


要将索引PDF的文件名作为响应的一部分,只需添加一个包含该信息的字段(它应该是一个字符串字段,未索引,已存储)。当然,您必须在索引时填充此新字段。

使用PDF Box和Apache Lucene的独立解决方案可在以下位置获得: *
它将创建一个HTML文件,其中包含指向找到关键字的PDF文件中相应页面的链接。

使用PDF Box和Apache Lucene的独立解决方案可在以下位置获得: *
它将创建一个HTML文件,其中包含指向在PDF文件中找到关键字的相应页面的链接。

是的,这是可能的。您能发布到目前为止的内容吗,或者您遇到的具体问题在哪里?我将代码放在github@上,架构文件位于,我不是故意粗鲁,但您必须比这更具体……其他rwise这是一个“请给我发代码/免费做我的工作”这类问题在stackoverflow上不受欢迎。我用一个样本更新了问题。我不是在寻找能帮我完成这项工作的人!我在寻找能帮助我朝正确方向研究的提示/线索。我偶然发现solr不到一周了。谢谢!是的,有可能。你能发布你到目前为止的信息吗,or具体来说,你在哪里遇到了麻烦?我把代码放在github@上,模式文件在那里。我不是有意粗鲁,但你必须比这更具体……否则这是一个“请免费给我发代码/做我的工作”这类问题在stackoverflow上不受欢迎。我用一个示例更新了问题。我不是在寻找能为我做这项工作的人!我在寻找能帮助我朝正确方向研究的提示/线索。自从我偶然发现solr以来,不到一周了。谢谢!
<response><lst name="responseHeader"><int name="status">0</int><int name="QTime">13</int><lst name="params"><str name="indent">on</str><str name="start">0</str><str name="q">Java Servlet</str><str name="version">2.2</str><str name="rows">10</str></lst></lst>

<result name="response" numFound="1" start="0"><doc><arr name="content_type"><str>application/pdf</str></arr><str name="id">tutorial.pdf</str><str name="subject">Solr</str><arr name="title"><str>Solr tutorial</str></arr></doc></result></response>