使用Lucene搜索HTML文档中的单词

使用Lucene搜索HTML文档中的单词,lucene,Lucene,我正在尝试开发一个应用程序来检查HTML页面中的单词密度。我精通Java,但从未使用过Lucene。你认为用Lucene做这个用途可行吗?或者HTML页面中包含的标记元素会导致无效搜索?欢迎任何建议 谢谢 明智的做法是去掉HTML标记,只对内容进行索引。这在以前是有过的。我建议使用(我们使用它的另一个目的,但很高兴,它也提到了参考SO后),但YMMV


我正在尝试开发一个应用程序来检查HTML页面中的单词密度。我精通Java,但从未使用过Lucene。你认为用Lucene做这个用途可行吗?或者HTML页面中包含的标记元素会导致无效搜索?欢迎任何建议

谢谢

明智的做法是去掉HTML标记,只对内容进行索引。这在以前是有过的。我建议使用(我们使用它的另一个目的,但很高兴,它也提到了参考SO后),但YMMV