solr突出显示:重叠的html标记

solr突出显示:重叠的html标记,solr,lucene,Solr,Lucene,我必须突出显示从SolrV6.6.2返回的html文本 原始html存储在solr中的body\u txt\u en字段中: 我有一个强大的TCL代码 突出显示/选择参数: hl.q=have strong TCL hl=on hl.fl=*_txt_en 预期结果: 我有一个强大的TCL代码 实际结果: 我有一个强大的TCL代码 正如您所看到的-出现在之后,它为大型文档打破了html 字段配置: 无法理解为什么在solr.StandardTokenizerFactory(ST)之后

我必须突出显示从SolrV6.6.2返回的html文本

原始html存储在solr中的
body\u txt\u en
字段中:

我有一个强大的TCL代码
突出显示/选择参数:

hl.q=have strong TCL
hl=on
hl.fl=*_txt_en
预期结果:

我有一个强大的TCL代码
实际结果:

我有一个强大的TCL代码
正如您所看到的-
出现在
之后,它为大型文档打破了html

字段配置:


无法理解为什么在
solr.StandardTokenizerFactory
ST
)之后
end-start=12
用于
TCL
关键字

问题:
如何解决这个“错误的html标记顺序”问题?

使用
update.chain
代替-这样,文本在被赋予字段之前将从html中剥离,并且存储的值应该没有任何html的迹象。不过,这也会删除从该字段返回的任何HTML(它包括一个自定义字符过滤器,将结束令牌偏移量设置在
@MatsLindh之后,这真的很有帮助!感谢您的提示,我为我的案例做了一些变通:
HTMLStripCharFilterFactory
之前。很高兴知道jira票证在那里。使用
更新.chain
h相反-这样,文本在提供给字段之前将从HTML中剥离,并且存储的值应该没有任何HTML的迹象。但是,这也将删除从字段返回的任何HTML。另外,请参阅讨论此确切问题的位置(它包括一个自定义的charfilter,它将结束令牌偏移量放在
@MatsLindh之后,这真的很有帮助!感谢您的提示,我为我的案例做了一些变通:
HTMLStripCharFilterFactory
之前。很高兴知道jira票据在那里。