Lucene 删除常用英语单词策略
我想从html页面中提取相关关键字 我已经删除了所有html内容,将文本拆分为单词,使用词干分析器,并从lucene中删除了所有出现在停止词列表中的单词 但是现在我仍然有很多基本的动词和代词作为最常用的词Lucene 删除常用英语单词策略,lucene,weka,stop-words,snowball,Lucene,Weka,Stop Words,Snowball,我想从html页面中提取相关关键字 我已经删除了所有html内容,将文本拆分为单词,使用词干分析器,并从lucene中删除了所有出现在停止词列表中的单词 但是现在我仍然有很多基本的动词和代词作为最常用的词 在lucene、snowball或其他任何地方是否有某种方法或一组单词可以过滤掉所有这些东西,如“我、是、去、去、是、是、是、我们、你、我们……”这似乎是一个非常简单的逆文档频率应用。如果你有一个小语料库,比如说10000个网页,你就可以计算出每个单词出现在文档中的概率。然后选择一个你认为单词
在lucene、snowball或其他任何地方是否有某种方法或一组单词可以过滤掉所有这些东西,如“我、是、去、去、是、是、是、我们、你、我们……”这似乎是一个非常简单的逆文档频率应用。如果你有一个小语料库,比如说10000个网页,你就可以计算出每个单词出现在文档中的概率。然后选择一个你认为单词开始变得有趣或满足的阈值,并排除该阈值之前的单词 或者,这个列表看起来不错 的包为许多常见NLP任务提供了一个通过R的接口,并且有一个到Weka的接口。也许值得一看。文件是
如果更冷静地看待您的问题,您可能正在查找
tm
包中的removeStopWords()
函数。您正在查找术语“stopwords”。对于Lucene,这是内置的,您可以将它们添加到StopWordAnalyzer.java中(请参阅)