HTMLStripCharFilterFactory@Solr 3.4是否删除返回字段的html?

HTMLStripCharFilterFactory@Solr 3.4是否删除返回字段的html?,solr,coldfusion,coldfusion-10,cfsearch,cfindex,Solr,Coldfusion,Coldfusion 10,Cfsearch,Cfindex,我使用的是CF10,根据corporatezen.com/2013/11/updated-Solr-engine-coldfusion,它应该使用Solr 3.4。我在中添加了,但搜索结果中的摘要字段仍然包含HTML。知道为什么吗 显示: 字段:摘要字段类型:文本 属性:标记化、存储 模式:标记化、存储 位置增量间隙:100 索引分析器:org.apache.solr.analysis.TokenizerChain详细信息 字符过滤器: org.apache.solr.analysis.HTM

我使用的是CF10,根据corporatezen.com/2013/11/updated-Solr-engine-coldfusion,它应该使用Solr 3.4。我在
中添加了
,但搜索结果中的摘要字段仍然包含HTML。知道为什么吗

显示:

字段:摘要字段类型:文本

属性:标记化、存储

模式:标记化、存储

位置增量间隙:100

索引分析器:org.apache.solr.analysis.TokenizerChain详细信息

字符过滤器:

org.apache.solr.analysis.HTMLStripCharFilterFactory args:{luceneMatchVersion:LUCENE_24}标记器类: org.apache.solr.analysis.WhitespaceTokenizerFactory

过滤器:

org.apache.solr.analysis.StopFilterFactory参数:{words:stopwords.txt ignoreCase:true enablePositionIncrements:true luceneMatchVersion: LUCENE_24}org.apache.solr.analysis.WordDelimiterFilterFactory 参数:{splitOnCaseChange:1 GenerateEnumberParts:1 catenateWords:1 luceneMatchVersion:LUCENE_24代零件:1个链所有:0 catenateNumbers:1}org.apache.solr.analysis.LowerCaseFilterFactory args:{luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.EnglishPorterFilterFactory参数:{受保护: protwords.txt luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.removedUpplicateStokenFilterFactory args:{luceneMatchVersion:LUCENE_24}查询分析器: org.apache.solr.analysis.TokenizerChain详细信息

字符过滤器:

org.apache.solr.analysis.HTMLStripCharFilterFactory args:{luceneMatchVersion:LUCENE_24}标记器类: org.apache.solr.analysis.WhitespaceTokenizerFactory

过滤器:

org.apache.solr.analysis.SynonymFilterFactory参数:{同义词: synonyms.txt扩展:true ignoreCase:true luceneMatchVersion: LUCENE_24}org.apache.solr.analysis.StopFilterFactory参数:{words: stopwords.txt ignoreCase:true luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.WordDelimiterFilterFactory 参数:{splitOnCaseChange:1 GenerateEnumberParts:1 catenateWords:0 luceneMatchVersion:LUCENE_24代零件:1个链所有:0 catenateNumbers:0}org.apache.solr.analysis.LowerCaseFilterFactory args:{luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.EnglishPorterFilterFactory参数:{受保护: protwords.txt luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.removedUpplicateStokenFilterFactory args:{luceneMatchVersion:LUCENE_24}


您需要区分存储的和索引的。您添加到字段中的过滤器将更改存储在Solr索引中用于搜索的标记,但不会更改用于显示的存储值

Solr保留一个字段的两个版本*。一个是存储的一个。这是文本的原始部分,在包含HTML的情况下。另一个是索引版本。在那里,文本分析的全部魔力都得到了应用

然后,在执行搜索时,索引用于查找已创建匹配项的文档。显示结果时,将显示存储的版本



*当然,只有在启用了
stored=“true”
indexed=“true”
的情况下,才需要区分存储的和索引的。您添加到字段中的过滤器将更改存储在Solr索引中用于搜索的标记,但不会更改用于显示的存储值

Solr保留一个字段的两个版本*。一个是存储的一个。这是文本的原始部分,在包含HTML的情况下。另一个是索引版本。在那里,文本分析的全部魔力都得到了应用

然后,在执行搜索时,索引用于查找已创建匹配项的文档。显示结果时,将显示存储的版本



*当然,只有在您打开了
stored=“true”
index=“true”
的情况下,才可以使用此选项。谢谢!我将字段改为stored=“true”和index=“true”,但仍然会得到返回给我的html标记。这是预期的吗?是的,这就是我想要表达的。Solr不会清除存储的值。所有这些分析都会清理索引标记,但不会清理要显示的存储文本。那么如何从存储文本中剥离HTML呢?这取决于您如何将文档移交给Solr(导入路径)。在这个重要的人里面,你可以做一些that@jimcollins,如果您在OP中使用ColdFusion,则可以在添加或更新集合时使用
REReplace()
剥离HTML标记。谢谢!我将字段改为stored=“true”和index=“true”,但仍然会得到返回给我的html标记。这是预期的吗?是的,这就是我想要表达的。Solr不会清除存储的值。所有这些分析都会清理索引标记,但不会清理要显示的存储文本。那么如何从存储文本中剥离HTML呢?这取决于您如何将文档移交给Solr(导入路径)。在这个重要的人里面,你可以做一些that@jimcollins,如果在OP中使用ColdFusion,则可以在添加或更新集合时使用
REReplace()
剥离HTML标记。