防止某些文档在clucene中被索引

防止某些文档在clucene中被索引,clucene,standardanalyzer,Clucene,Standardanalyzer,我正在用clucene建立一个搜索索引,我想确保包含任何攻击性术语的文档永远不会被添加到索引中。使用带有停止列表的StandardAnalyzer是不够的,因为攻击性文档仍然会被添加,并且会被返回用于非攻击性搜索 相反,我希望建立一个文档,然后检查它是否包含任何冒犯性的词语,然后仅在没有的情况下添加它 干杯 您无法真正访问文档中的那种类型的数据 您可以在文本上手动运行分析链,并分别检查每个标记。您可以在一个愚蠢的循环中执行此操作,或者通过向链中添加另一个分析器来执行此操作,该分析器只会引发您稍后

我正在用clucene建立一个搜索索引,我想确保包含任何攻击性术语的文档永远不会被添加到索引中。使用带有停止列表的StandardAnalyzer是不够的,因为攻击性文档仍然会被添加,并且会被返回用于非攻击性搜索

相反,我希望建立一个文档,然后检查它是否包含任何冒犯性的词语,然后仅在没有的情况下添加它


干杯

您无法真正访问文档中的那种类型的数据

您可以在文本上手动运行分析链,并分别检查每个标记。您可以在一个愚蠢的循环中执行此操作,或者通过向链中添加另一个分析器来执行此操作,该分析器只会引发您稍后检查的标志

这将引入更多的工作,但这是实现这一目标的最佳方式