Machine learning 什么是N克?

Machine learning 什么是N克?,machine-learning,nlp,speech-recognition,n-gram,Machine Learning,Nlp,Speech Recognition,N Gram,什么是N克? 我想找出N=4(四克)、N=5(五克)、N=6(六克)、N=7(七克)的N-gram来作为句子-“吠叫不咬人的狗”” 我知道- 单位格(n=1):狗,会叫,不会咬 大公羊(n=2):会叫的狗,会叫,不会咬,不会咬 三叉树(n=3):吠叫的狗,吠叫的狗,吠叫的狗,不吠叫的狗,不咬人的狗 对于给定的句子,我们可以找到多少个N-gram?对于至少有“N”个单词的句子,存在N-gram。所以,在你的例子中,“吠叫不咬人的狗”有6个单词,所以你最多可以框6克(1,2,3,4,5,6克),并且

什么是N克?

我想找出N=4(四克)、N=5(五克)、N=6(六克)、N=7(七克)的N-gram来作为句子-“吠叫不咬人的狗”

我知道-

单位格(n=1):狗,会叫,不会咬

大公羊(n=2):会叫的狗,会叫,不会咬,不会咬

三叉树(n=3):吠叫的狗,吠叫的狗,吠叫的狗,不吠叫的狗,不咬人的狗


对于给定的句子,我们可以找到多少个N-gram?

对于至少有“N”个单词的句子,存在N-gram。所以,在你的例子中,“吠叫不咬人的狗”有6个单词,所以你最多可以框6克(1,2,3,4,5,6克),并且不能超过这个。因此,结果将是

  • 4克:会叫的狗,不会叫的狗,不会叫的狗 咬

  • 5克:吠叫的狗不会,吠叫的狗不会咬人

  • 6克:吠叫不咬人的狗


n-gram只是从源文档中提取的长度为n的连续标记序列(在本例中为单词)。在本例中,由于源代码的长度为6个单词,因此可以得到的最长n-gram是6-gram,它等于整个字符串。我真的不明白你为什么在这里问这个问题,因为它与编程有着千丝万缕的联系,在机器学习问题中,最多使用.n-grams,你想将文档(例如新闻文档)分类到它们的主要类别(体育、政治、媒体等),以获取你的同类信息@desertnaut why downvote??这个问题与机器学习有关……是的,但与编程无关,编程也是如此(为什么要使用
python
标记?这是一个怎样的python问题?)。请注意,关于一般的ML理论和方法的问题应该张贴在感谢的信息,我真的不知道。我会确保在ML问题中使用。