HTMLStripCharFilterFactory@Solr 3.4是否删除返回字段的html?
我使用的是CF10,根据corporatezen.com/2013/11/updated-Solr-engine-coldfusion,它应该使用Solr 3.4。我在HTMLStripCharFilterFactory@Solr 3.4是否删除返回字段的html?,solr,coldfusion,coldfusion-10,cfsearch,cfindex,Solr,Coldfusion,Coldfusion 10,Cfsearch,Cfindex,我使用的是CF10,根据corporatezen.com/2013/11/updated-Solr-engine-coldfusion,它应该使用Solr 3.4。我在中添加了,但搜索结果中的摘要字段仍然包含HTML。知道为什么吗 显示: 字段:摘要字段类型:文本 属性:标记化、存储 模式:标记化、存储 位置增量间隙:100 索引分析器:org.apache.solr.analysis.TokenizerChain详细信息 字符过滤器: org.apache.solr.analysis.HTM
中添加了
,但搜索结果中的摘要字段仍然包含HTML。知道为什么吗
显示:
字段:摘要字段类型:文本
属性:标记化、存储
模式:标记化、存储
位置增量间隙:100
索引分析器:org.apache.solr.analysis.TokenizerChain详细信息
字符过滤器:
org.apache.solr.analysis.HTMLStripCharFilterFactory
args:{luceneMatchVersion:LUCENE_24}标记器类:
org.apache.solr.analysis.WhitespaceTokenizerFactory
过滤器:
org.apache.solr.analysis.StopFilterFactory参数:{words:stopwords.txt
ignoreCase:true enablePositionIncrements:true luceneMatchVersion:
LUCENE_24}org.apache.solr.analysis.WordDelimiterFilterFactory
参数:{splitOnCaseChange:1 GenerateEnumberParts:1 catenateWords:1
luceneMatchVersion:LUCENE_24代零件:1个链所有:0
catenateNumbers:1}org.apache.solr.analysis.LowerCaseFilterFactory
args:{luceneMatchVersion:LUCENE_24}
org.apache.solr.analysis.EnglishPorterFilterFactory参数:{受保护:
protwords.txt luceneMatchVersion:LUCENE_24}
org.apache.solr.analysis.removedUpplicateStokenFilterFactory
args:{luceneMatchVersion:LUCENE_24}查询分析器:
org.apache.solr.analysis.TokenizerChain详细信息
字符过滤器:
org.apache.solr.analysis.HTMLStripCharFilterFactory
args:{luceneMatchVersion:LUCENE_24}标记器类:
org.apache.solr.analysis.WhitespaceTokenizerFactory
过滤器:
org.apache.solr.analysis.SynonymFilterFactory参数:{同义词:
synonyms.txt扩展:true ignoreCase:true luceneMatchVersion:
LUCENE_24}org.apache.solr.analysis.StopFilterFactory参数:{words:
stopwords.txt ignoreCase:true luceneMatchVersion:LUCENE_24}
org.apache.solr.analysis.WordDelimiterFilterFactory
参数:{splitOnCaseChange:1 GenerateEnumberParts:1 catenateWords:0
luceneMatchVersion:LUCENE_24代零件:1个链所有:0
catenateNumbers:0}org.apache.solr.analysis.LowerCaseFilterFactory
args:{luceneMatchVersion:LUCENE_24}
org.apache.solr.analysis.EnglishPorterFilterFactory参数:{受保护:
protwords.txt luceneMatchVersion:LUCENE_24}
org.apache.solr.analysis.removedUpplicateStokenFilterFactory
args:{luceneMatchVersion:LUCENE_24}
您需要区分存储的和索引的。您添加到字段中的过滤器将更改存储在Solr索引中用于搜索的标记,但不会更改用于显示的存储值 Solr保留一个字段的两个版本*。一个是存储的一个。这是文本的原始部分,在包含HTML的情况下。另一个是索引版本。在那里,文本分析的全部魔力都得到了应用 然后,在执行搜索时,索引用于查找已创建匹配项的文档。显示结果时,将显示存储的版本
*当然,只有在启用了
stored=“true”
和indexed=“true”
的情况下,才需要区分存储的和索引的。您添加到字段中的过滤器将更改存储在Solr索引中用于搜索的标记,但不会更改用于显示的存储值
Solr保留一个字段的两个版本*。一个是存储的一个。这是文本的原始部分,在包含HTML的情况下。另一个是索引版本。在那里,文本分析的全部魔力都得到了应用
然后,在执行搜索时,索引用于查找已创建匹配项的文档。显示结果时,将显示存储的版本
*当然,只有在您打开了
stored=“true”
和index=“true”
的情况下,才可以使用此选项。谢谢!我将字段改为stored=“true”和index=“true”,但仍然会得到返回给我的html标记。这是预期的吗?是的,这就是我想要表达的。Solr不会清除存储的值。所有这些分析都会清理索引标记,但不会清理要显示的存储文本。那么如何从存储文本中剥离HTML呢?这取决于您如何将文档移交给Solr(导入路径)。在这个重要的人里面,你可以做一些that@jimcollins,如果您在OP中使用ColdFusion,则可以在添加或更新集合时使用REReplace()
剥离HTML标记。谢谢!我将字段改为stored=“true”和index=“true”,但仍然会得到返回给我的html标记。这是预期的吗?是的,这就是我想要表达的。Solr不会清除存储的值。所有这些分析都会清理索引标记,但不会清理要显示的存储文本。那么如何从存储文本中剥离HTML呢?这取决于您如何将文档移交给Solr(导入路径)。在这个重要的人里面,你可以做一些that@jimcollins,如果在OP中使用ColdFusion,则可以在添加或更新集合时使用REReplace()
剥离HTML标记。