HTMLStripCharFilterFactory@Solr 3.4是否删除返回字段的html？_Solr_Coldfusion_Coldfusion 10_Cfsearch_Cfindex

HTMLStripCharFilterFactory@Solr 3.4是否删除返回字段的html？

solr coldfusion

HTMLStripCharFilterFactory@Solr 3.4是否删除返回字段的html？,solr,coldfusion,coldfusion-10,cfsearch,cfindex,Solr,Coldfusion,Coldfusion 10,Cfsearch,Cfindex,我使用的是CF10，根据corporatezen.com/2013/11/updated-Solr-engine-coldfusion，它应该使用Solr 3.4。我在中添加了，但搜索结果中的摘要字段仍然包含HTML。知道为什么吗显示：字段：摘要字段类型：文本属性：标记化、存储模式：标记化、存储位置增量间隙：100 索引分析器：org.apache.solr.analysis.TokenizerChain详细信息字符过滤器： org.apache.solr.analysis.HTM

我使用的是CF10，根据corporatezen.com/2013/11/updated-Solr-engine-coldfusion，它应该使用Solr 3.4。我在

中添加了

，但搜索结果中的摘要字段仍然包含HTML。知道为什么吗

显示：

字段：摘要字段类型：文本

属性：标记化、存储

模式：标记化、存储

位置增量间隙：100

索引分析器：org.apache.solr.analysis.TokenizerChain详细信息

字符过滤器：

org.apache.solr.analysis.HTMLStripCharFilterFactory args:{luceneMatchVersion:LUCENE_24}标记器类： org.apache.solr.analysis.WhitespaceTokenizerFactory

过滤器：

org.apache.solr.analysis.StopFilterFactory参数：{words:stopwords.txt ignoreCase:true enablePositionIncrements:true luceneMatchVersion: LUCENE_24}org.apache.solr.analysis.WordDelimiterFilterFactory 参数：{splitOnCaseChange:1 GenerateEnumberParts:1 catenateWords:1 luceneMatchVersion:LUCENE_24代零件：1个链所有：0 catenateNumbers:1}org.apache.solr.analysis.LowerCaseFilterFactory args:{luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.EnglishPorterFilterFactory参数：{受保护： protwords.txt luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.removedUpplicateStokenFilterFactory args:{luceneMatchVersion:LUCENE_24}查询分析器： org.apache.solr.analysis.TokenizerChain详细信息

字符过滤器：

org.apache.solr.analysis.HTMLStripCharFilterFactory args:{luceneMatchVersion:LUCENE_24}标记器类： org.apache.solr.analysis.WhitespaceTokenizerFactory

过滤器：

org.apache.solr.analysis.SynonymFilterFactory参数：{同义词： synonyms.txt扩展：true ignoreCase:true luceneMatchVersion: LUCENE_24}org.apache.solr.analysis.StopFilterFactory参数：{words: stopwords.txt ignoreCase:true luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.WordDelimiterFilterFactory 参数：{splitOnCaseChange:1 GenerateEnumberParts:1 catenateWords:0 luceneMatchVersion:LUCENE_24代零件：1个链所有：0 catenateNumbers:0}org.apache.solr.analysis.LowerCaseFilterFactory args:{luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.EnglishPorterFilterFactory参数：{受保护： protwords.txt luceneMatchVersion:LUCENE_24} org.apache.solr.analysis.removedUpplicateStokenFilterFactory args:{luceneMatchVersion:LUCENE_24}

您需要区分存储的和索引的。您添加到字段中的过滤器将更改存储在Solr索引中用于搜索的标记，但不会更改用于显示的存储值

Solr保留一个字段的两个版本*。一个是存储的一个。这是文本的原始部分，在包含HTML的情况下。另一个是索引版本。在那里，文本分析的全部魔力都得到了应用

然后，在执行搜索时，索引用于查找已创建匹配项的文档。显示结果时，将显示存储的版本

*当然，只有在启用了

stored=“true”

和

indexed=“true”

的情况下，才需要区分存储的和索引的。您添加到字段中的过滤器将更改存储在Solr索引中用于搜索的标记，但不会更改用于显示的存储值

然后，在执行搜索时，索引用于查找已创建匹配项的文档。显示结果时，将显示存储的版本

*当然，只有在您打开了

stored=“true”

和

index=“true”

的情况下，才可以使用此选项。谢谢！我将字段改为stored=“true”和index=“true”，但仍然会得到返回给我的html标记。这是预期的吗？是的，这就是我想要表达的。Solr不会清除存储的值。所有这些分析都会清理索引标记，但不会清理要显示的存储文本。那么如何从存储文本中剥离HTML呢？这取决于您如何将文档移交给Solr（导入路径）。在这个重要的人里面，你可以做一些that@jimcollins，如果您在OP中使用ColdFusion，则可以在添加或更新集合时使用

REReplace（）

剥离HTML标记。谢谢！我将字段改为stored=“true”和index=“true”，但仍然会得到返回给我的html标记。这是预期的吗？是的，这就是我想要表达的。Solr不会清除存储的值。所有这些分析都会清理索引标记，但不会清理要显示的存储文本。那么如何从存储文本中剥离HTML呢？这取决于您如何将文档移交给Solr（导入路径）。在这个重要的人里面，你可以做一些that@jimcollins，如果在OP中使用ColdFusion，则可以在添加或更新集合时使用

REReplace（）

剥离HTML标记。