Java 避免将HTML标记索引为搜索关键字

Java 避免将HTML标记索引为搜索关键字,java,html,lucene,Java,Html,Lucene,我正在为HTML文档中的关键字编制索引,但我不想为HTML标记编制索引 例如: 不客气 测试文本 预期关键字: keywords:You 如何避免HTML标记成为关键字?我认为您需要解析HTML并提取每个标记的内部文本。可能是HTMLStripCharFilter?任何解析器都可用于解析jsp页面??

我正在为HTML文档中的关键字编制索引,但我不想为HTML标记编制索引

例如:

不客气 测试文本 预期关键字:

keywords:You

如何避免HTML标记成为关键字?

我认为您需要解析HTML并提取每个标记的内部文本。

可能是HTMLStripCharFilter?任何解析器都可用于解析jsp页面??