如何从Lucene索引中提取随机项?
我想随机抽取术语,按照原文中的方式分发。换句话说,如果单词“大象”在所有索引文档中出现的频率是单词“河马”的两倍,那么它在我的随机抽取中出现的频率应该是两倍。这应该以有效的方式进行如何从Lucene索引中提取随机项?,lucene,statistics,nlp,Lucene,Statistics,Nlp,我想随机抽取术语,按照原文中的方式分发。换句话说,如果单词“大象”在所有索引文档中出现的频率是单词“河马”的两倍,那么它在我的随机抽取中出现的频率应该是两倍。这应该以有效的方式进行 在我看来,索引可能不是这方面的理想数据结构,但它很诱人:它包含所有术语及其频率。可能的副本需要单克分布,我已经投票决定以一个问题的复本结束,并给出了解释如何结束的答案。我同意——感谢指针——当我用我觉得很自然的查询进行搜索时,它没有出现
在我看来,索引可能不是这方面的理想数据结构,但它很诱人:它包含所有术语及其频率。可能的副本需要单克分布,我已经投票决定以一个问题的复本结束,并给出了解释如何结束的答案。我同意——感谢指针——当我用我觉得很自然的查询进行搜索时,它没有出现