Python中NLTK工具包的默认chunker是什么?

Python中NLTK工具包的默认chunker是什么?,python,nlp,nltk,chunking,Python,Nlp,Nltk,Chunking,我正在使用他们的默认词性标记和默认标记,这似乎已经足够了。我也想要他们的默认chunker 我正在阅读NLTK工具包的书,但他们似乎没有默认的chunker?您可以使用NLTK.ne_chunk()方法打开名为entity chunking的盒子。它获取POS标记元组的列表: nltk.ne_块([('Barack','NNP'),('Obama','NNP'),('lifes','NNS'),('in','in'),('Washington','NNP'))) 结果: Tree('S',[Tr

我正在使用他们的默认词性标记和默认标记,这似乎已经足够了。我也想要他们的默认chunker


我正在阅读NLTK工具包的书,但他们似乎没有默认的chunker?

您可以使用NLTK.ne_chunk()方法打开名为entity chunking的盒子。它获取POS标记元组的列表:

nltk.ne_块([('Barack','NNP'),('Obama','NNP'),('lifes','NNS'),('in','in'),('Washington','NNP')))

结果:

Tree('S',[Tree('PERSON',[('Barack','NNP')]),Tree('ORGANIZATION',[('Obama','NNP')]),('lifes','NNS'),('in','in'),Tree('GPE',[('Washington','NNP')]),


它将巴拉克视为一个人,但将奥巴马视为一个组织。所以,这并不完美。

我也找不到默认的分块器/浅层解析器。尽管本书描述了如何使用示例功能构建和训练一个。想出额外的特性来获得良好的性能应该不会太难


参见第7章的章节。

如果我不太关心命名实体,而是一般的分块,该怎么办。例如,“黄狗”是一个区块,“正在运行”是一个区块。是的,对于这一点,我的知识没有默认值(当然,我并不完全了解nltk)。您可以使用RegexpChunkParser,不过您必须自己开发规则。这里有一个例子: