从内容中筛选HTML标记仅用于搜索,不在Solr中显示

从内容中筛选HTML标记仅用于搜索,不在Solr中显示,html,indexing,solr,lucene,Html,Indexing,Solr,Lucene,在我的源数据中有一个名为Overview的内容字段,我将它存储在Solr中名为tm_Overview的文本字段中(为什么它是多值的,我不知道,但它是在我到达之前完成的),这是一个标准文本字段。我遇到了一个问题,在搜索过程中找到了HTML标记中的数字和文本。例如,在166上搜索会找到此文本并返回一条记录: <img height=\"166\" src=\"[custom:asset-url]/6004064a_laser_dstnc_meter_emph_250x131_0.jpg\" w

在我的源数据中有一个名为
Overview
的内容字段,我将它存储在Solr中名为
tm_Overview
的文本字段中(为什么它是多值的,我不知道,但它是在我到达之前完成的),这是一个标准文本字段。我遇到了一个问题,在搜索过程中找到了HTML标记中的数字和文本。例如,在
166
上搜索会找到此文本并返回一条记录:

<img height=\"166\" src=\"[custom:asset-url]/6004064a_laser_dstnc_meter_emph_250x131_0.jpg\" width=\"250\" />
传递到字段中的值如下所示:

<table>
    <tbody>
        <tr>
            <td align="center">
            <figure class="center"><img height="166" src="[custom:asset-url]/F_tix520_05a_250x147_0.jpg" width="250" /></figure>

            <div class="small-font">更快地导航、捕捉和处理图像</div>
            </td>
            <td>
            ...

更快地导航、捕捉和处理图像
...
甚至只是段落文字:

<p><strong>This infrared camera gives you easier angles with a 240° rotating screen and broader temperature range</strong></p>

<p>The blah blah product will help you easily navigate over, under and around hard to reach targets with the full 240° rotating screen. You can capture and process images quickly and analyze images in the field on the 5.7 inch responsive touchscreen LCD with on-camera analytics. Save time by editing emissivity, background temp, transmissivity, palettes, color alarms, adjusting IR-Fusion, and enabling/disabling markers all on the camera.</p>
这款红外摄像机具有240°旋转屏幕和更宽的温度范围,为您提供更轻松的视角

blah-blah产品将帮助您通过240°旋转屏幕轻松浏览难以到达的目标。您可以在5.7英寸响应灵敏的触摸屏LCD上快速捕获和处理图像,并在现场分析图像。通过编辑发射率、背景温度、透射率、调色板、颜色报警、调整红外融合以及启用/禁用摄像机上的所有标记来节省时间

然而,没有任何标签被剥离。我是否需要做一些不同的事情来去除标签

第二个问题与索引的
与存储的
值有关。正如我上面提到的,您可以让索引值与原始存储版本不同,我如何才能看到两者之间的差异?如果我在Solr admin ui中执行查询,我会看到该字段的哪个版本?索引的或存储的?

存储的值(通常)永远不会更改(…但是-但听起来这不是你想要的),只要你要求存储它。对于索引来说,重要的是您将内容放入字段中会产生什么标记。返回的内容不会更改,也不取决于在后台为哪些令牌编制索引以进行搜索。Solr返回的值总是(至少只要字段设置为存储-docValues和“存储时使用”可能不同-我现在不记得了)与您在字段中输入的值相同

这也意味着,由于您将HTML作为内容发送到字段中,所以Solr将在您发送HTML时存储HTML。每次更改字段定义时,您还必须重新索引(重新提交)您的内容,但仅更改分析链的
查询部分时除外

要准确查看字段的处理方式,请转到管理界面中的集合,选择分析并将HTML粘贴到“索引”(左)框中。在右侧框中,输入
166
或应用程序中使用的另一个搜索字符串示例。选择要显示处理的字段,然后按submit按钮


这将准确显示每个字段的处理方式,以及链中每个过滤器后的结果。结果标记才是重要的,如果在处理链的两侧都存在,这些标记将产生命中。

因此,基本上,我只能看到它将如何被索引,而不能看到它实际上是如何被索引的。我上面所说的实际上是有效的(不知道为什么一开始没有)。
<p><strong>This infrared camera gives you easier angles with a 240° rotating screen and broader temperature range</strong></p>

<p>The blah blah product will help you easily navigate over, under and around hard to reach targets with the full 240° rotating screen. You can capture and process images quickly and analyze images in the field on the 5.7 inch responsive touchscreen LCD with on-camera analytics. Save time by editing emissivity, background temp, transmissivity, palettes, color alarms, adjusting IR-Fusion, and enabling/disabling markers all on the camera.</p>