Text 查找与所有文档相关的顶部单词_Text_Full Text Search_Statistics_Tf Idf

Text 查找与所有文档相关的顶部单词

text statistics

Text 查找与所有文档相关的顶部单词,text,full-text-search,statistics,tf-idf,Text,Full Text Search,Statistics,Tf Idf,我有大约100000多个文本文档。我想找到一种方法来回答这个（有点模棱两可）问题：对于给定的文档子集，与全套文档相关的n个最常见单词是什么？我想展示一些趋势，例如，一个词云显示类似“这些是给定日期范围内特别热门的话题”。（是的，我知道这是一个过于简单的说法：单词！=主题等）似乎我可以计算所有文档中所有单词的值，然后进行一些数字运算，但我不想在这里重新发明任何轮子我计划可能使用或为文档编制索引。他们会帮我解决这个问题吗？怎么解决？或者你会推荐一些其他的工具吗？这应该可以：还包括Lucen

我有大约100000多个文本文档。我想找到一种方法来回答这个（有点模棱两可）问题：

对于给定的文档子集，与全套文档相关的n个最常见单词是什么？

我想展示一些趋势，例如，一个词云显示类似“这些是给定日期范围内特别热门的话题”。（是的，我知道这是一个过于简单的说法：单词！=主题等）

似乎我可以计算所有文档中所有单词的值，然后进行一些数字运算，但我不想在这里重新发明任何轮子

我计划可能使用或为文档编制索引。他们会帮我解决这个问题吗？怎么解决？或者你会推荐一些其他的工具吗？

这应该可以：

还包括Lucene的一般术语频率

如果您还没有使用Lucene，那么您正在讨论的操作是Hadoop的一个经典入门问题（“字数”问题）。

但是

highfrequertms

是否可以返回整个索引子集的统计数据？（Hadoop部分也有同样的问题。）对于Hadoop，是的，因为在映射器中，您编写的简单过滤代码只是跳过某些文档。对于Lucence，传递一个

org.apache.lucene.index.FilterIndexReader

的实例。我有兴趣尝试lucene和

HighFrequeTerms

，但我找不到任何实际使用

FilterIndexReader

过滤数据集的示例。有什么建议吗？我也没有在博客上找到任何明显的例子，但是（除了第1页）有一些，比如去亚马逊网站，看看Lucence在行动和“在这本书内搜索”中给出的结果。对于Lucene来说，书籍是非常有用的，IMHO。