Algorithm 在n个文本块中查找最常出现的n个单词对(跳过g)

Algorithm 在n个文本块中查找最常出现的n个单词对(跳过g),algorithm,text-mining,n-gram,Algorithm,Text Mining,N Gram,给定:N个文本块(每个块中的唯一单词)。对于任意数字n和k,如何找到在n个文本块中出现的k个最频繁的n字对 对于n=1,这是一个微不足道的问题。我们可以生成TDM,并按频率降序排序。对于n=2,我们可以使用TDM生成共现矩阵C=TDM*TDM’,然后搜索k个最大值。矩阵中的索引告诉我们哪些词对最频繁 如何将这个概念推广到任意n?如何优化计算时间?有没有一个现有的算法 我很感谢你的建议 注:我使用的软件是MATLAB

给定:N个文本块(每个块中的唯一单词)。对于任意数字n和k,如何找到在n个文本块中出现的k个最频繁的n字对

对于n=1,这是一个微不足道的问题。我们可以生成TDM,并按频率降序排序。对于n=2,我们可以使用TDM生成共现矩阵C=TDM*TDM’,然后搜索k个最大值。矩阵中的索引告诉我们哪些词对最频繁

如何将这个概念推广到任意n?如何优化计算时间?有没有一个现有的算法

我很感谢你的建议

注:我使用的软件是MATLAB