Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/algorithm/10.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Algorithm 简单n-gram算法_Algorithm_String Matching_N Gram - Fatal编程技术网

Algorithm 简单n-gram算法

Algorithm 简单n-gram算法,algorithm,string-matching,n-gram,Algorithm,String Matching,N Gram,我正在寻找一种算法(或C#,Java源代码),可以在句子中找到n-gram。具体来说,我有100个单词(w1到w100)和由这些单词组成的句子(s1、s2、s3等) 句子长度从1到100个单词不等,单词可以以任何顺序出现在句子中(但一旦放入一个句子中,顺序就会起作用),单词可以重复任意次数 我正在寻找一种算法,该算法将采用一个阈值数字,并返回出现在阈值以上的句子中的n-gram以及出现n-gram的句子 我还对一种间隙容忍算法感兴趣,该算法可以找到顺序相同但中间有间隙的常用词 提前谢谢。我希望这

我正在寻找一种算法(或C#,Java源代码),可以在句子中找到n-gram。具体来说,我有100个单词(w1到w100)和由这些单词组成的句子(s1、s2、s3等)

句子长度从1到100个单词不等,单词可以以任何顺序出现在句子中(但一旦放入一个句子中,顺序就会起作用),单词可以重复任意次数

我正在寻找一种算法,该算法将采用一个阈值数字,并返回出现在阈值以上的句子中的n-gram以及出现n-gram的句子

我还对一种间隙容忍算法感兴趣,该算法可以找到顺序相同但中间有间隙的常用词


提前谢谢。我希望这个问题在StackOverflow的范围内得到明确的说明。

作为澄清的一点,我们是使用n-grams来表示
n
字母组,还是将其定义为
n
单词组?