Indexing 当通过URL索引时,如何删除SOLR Indexes[content field]内容中的脚本和样式?

Indexing 当通过URL索引时,如何删除SOLR Indexes[content field]内容中的脚本和样式?,indexing,solrj,solr6,Indexing,Solrj,Solr6,每当Solr被索引到集合(使用configSetsample\u techproducts\u configs)并使用URL时,通过以下命令: bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 创建的索引确实有一个字段内容复制到文本字段。 此字段确实具有使用嵌入式tika parse解析的网页内容的值 但是,当这些网页包含任何或标签时,将被删除,但这些标签中的脚本或样式将保留为网页的内容,并在响应Sol

每当Solr被索引到集合(使用configSet
sample\u techproducts\u configs
)并使用URL时,通过以下命令:

bin/post -p 8983 -c collection https://www.mywebsite.com -recursive 3 
创建的索引确实有一个字段
内容
复制到
文本
字段。 此字段确实具有使用嵌入式tika parse解析的网页内容的值

但是,当这些网页包含任何
标签时,
将被删除,但这些标签中的脚本或样式将保留为网页的内容,并在响应Solr查询时显示


如何删除这些不需要的内容?

请阅读
SimplePostTool
DATA\u MODE\u WEB
inputstream
(仅限内容类型为“text/html”的用户,删除所有
标记及其内容,然后使用
stringToStream(String)再次将该内容字符串转换为流)
readPageFromUrl(URL u)
函数中