Java 避免将HTML标记索引为搜索关键字
我正在为HTML文档中的关键字编制索引,但我不想为HTML标记编制索引 例如: 不客气 测试文本 预期关键字:Java 避免将HTML标记索引为搜索关键字,java,html,lucene,Java,Html,Lucene,我正在为HTML文档中的关键字编制索引,但我不想为HTML标记编制索引 例如: 不客气 测试文本 预期关键字: keywords:You 如何避免HTML标记成为关键字?我认为您需要解析HTML并提取每个标记的内部文本。可能是HTMLStripCharFilter?任何解析器都可用于解析jsp页面??
keywords:You
如何避免HTML标记成为关键字?我认为您需要解析HTML并提取每个标记的内部文本。可能是HTMLStripCharFilter?任何解析器都可用于解析jsp页面??