查询索引的SOLR文档-使用突出显示_Solr_Apache Tika

查询索引的SOLR文档-使用突出显示

solr

查询索引的SOLR文档-使用突出显示,solr,apache-tika,Solr,Apache Tika,我在SOLR Tika和文档索引方面进退两难。由于这是我第一次接触索尔和蒂卡，我仍处于学习阶段。到目前为止，我已经让它工作了，而且它还为结果返回了适当的高亮显示。它按预期工作有些事情对我来说没有意义。每次我得到结果，我都会收到我使用的字段（id、名称等），我也会收到行为正常的突出显示，但我也会收到我确实不需要的内容字段。假设我上传并索引一个有600kb文本的文件。我也会得到包含文本的内容，这会减慢速度。出于学习目的，我使用示例文件夹中包含的default Schema.xls 在我努力工作的过

我在SOLR Tika和文档索引方面进退两难。由于这是我第一次接触索尔和蒂卡，我仍处于学习阶段。到目前为止，我已经让它工作了，而且它还为结果返回了适当的高亮显示。它按预期工作

有些事情对我来说没有意义。每次我得到结果，我都会收到我使用的字段（id、名称等），我也会收到行为正常的突出显示，但我也会收到我确实不需要的内容字段。假设我上传并索引一个有600kb文本的文件。我也会得到包含文本的内容，这会减慢速度。出于学习目的，我使用示例文件夹中包含的default Schema.xls

在我努力工作的过程中，我对Schema.xml进行了以下更改（添加了此xml）

我的方式是动态的，因为我根据文档名确定literal.id。但本质上是同一篇文章

我从SOLR获得的文件如下：

aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true

返回包含高光的JSON对象。问题是我也得到了内容属性，我不需要那个

我正准备编写自己的模式文件，并用我使用的错误字段（功能）解决这个问题

我做了这项工作，但我知道我做得不对，问题是我看不到错误的方式

我知道必须有另一个查询才能获得突出显示，而且我知道不应该使用功能，内容字段就足够了。

您可以通过提供以下内容来决定返回哪些字段：

&fl=id、name等 对。一旦我删除了不必要的参数改进是100%。非常感谢。
curl "http://localhost:8983/solr/update/extract?literal.id=doc1&commit=true" -F  
"myfile=@tutorial.html"

aws.instance:8983/solr/select?q=features:virus&hl.fragsize=50&hl=on&hl.fl=features&hl.maxAnalyzedChars=-1&hl.snippets=20&wt=json&indent=true