Algorithm 简单n-gram算法
我正在寻找一种算法(或C#,Java源代码),可以在句子中找到n-gram。具体来说,我有100个单词(w1到w100)和由这些单词组成的句子(s1、s2、s3等) 句子长度从1到100个单词不等,单词可以以任何顺序出现在句子中(但一旦放入一个句子中,顺序就会起作用),单词可以重复任意次数 我正在寻找一种算法,该算法将采用一个阈值数字,并返回出现在阈值以上的句子中的n-gram以及出现n-gram的句子 我还对一种间隙容忍算法感兴趣,该算法可以找到顺序相同但中间有间隙的常用词Algorithm 简单n-gram算法,algorithm,string-matching,n-gram,Algorithm,String Matching,N Gram,我正在寻找一种算法(或C#,Java源代码),可以在句子中找到n-gram。具体来说,我有100个单词(w1到w100)和由这些单词组成的句子(s1、s2、s3等) 句子长度从1到100个单词不等,单词可以以任何顺序出现在句子中(但一旦放入一个句子中,顺序就会起作用),单词可以重复任意次数 我正在寻找一种算法,该算法将采用一个阈值数字,并返回出现在阈值以上的句子中的n-gram以及出现n-gram的句子 我还对一种间隙容忍算法感兴趣,该算法可以找到顺序相同但中间有间隙的常用词 提前谢谢。我希望这
提前谢谢。我希望这个问题在StackOverflow的范围内得到明确的说明。作为澄清的一点,我们是使用n-grams来表示
n
字母组,还是将其定义为n
单词组?