Text 查找与所有文档相关的顶部单词

Text 查找与所有文档相关的顶部单词,text,full-text-search,statistics,tf-idf,Text,Full Text Search,Statistics,Tf Idf,我有大约100000多个文本文档。我想找到一种方法来回答这个(有点模棱两可)问题: 对于给定的文档子集,与全套文档相关的n个最常见单词是什么? 我想展示一些趋势,例如,一个词云显示类似“这些是给定日期范围内特别热门的话题”。(是的,我知道这是一个过于简单的说法:单词!=主题等) 似乎我可以计算所有文档中所有单词的值,然后进行一些数字运算,但我不想在这里重新发明任何轮子 我计划可能使用或为文档编制索引。他们会帮我解决这个问题吗?怎么解决?或者你会推荐一些其他的工具吗?这应该可以: 还包括Lucen

我有大约100000多个文本文档。我想找到一种方法来回答这个(有点模棱两可)问题:

对于给定的文档子集,与全套文档相关的n个最常见单词是什么?

我想展示一些趋势,例如,一个词云显示类似“这些是给定日期范围内特别热门的话题”。(是的,我知道这是一个过于简单的说法:单词!=主题等)

似乎我可以计算所有文档中所有单词的值,然后进行一些数字运算,但我不想在这里重新发明任何轮子

我计划可能使用或为文档编制索引。他们会帮我解决这个问题吗?怎么解决?或者你会推荐一些其他的工具吗?

这应该可以:

还包括Lucene的一般术语频率


如果您还没有使用Lucene,那么您正在讨论的操作是Hadoop的一个经典入门问题(“字数”问题)。

但是
highfrequertms
是否可以返回整个索引子集的统计数据?(Hadoop部分也有同样的问题。)对于Hadoop,是的,因为在映射器中,您编写的简单过滤代码只是跳过某些文档。对于Lucence,传递一个
org.apache.lucene.index.FilterIndexReader
的实例。我有兴趣尝试lucene和
HighFrequeTerms
,但我找不到任何实际使用
FilterIndexReader
过滤数据集的示例。有什么建议吗?我也没有在博客上找到任何明显的例子,但是(除了第1页)有一些,比如去亚马逊网站,看看Lucence在行动和“在这本书内搜索”中给出的结果。对于Lucene来说,书籍是非常有用的,IMHO。