NLTK RegEx Chunker-通配符是否匹配任何POS标记?
我正在使用NLTK的RegexpParser从POS标记的单词中获取短语。例如:NLTK RegEx Chunker-通配符是否匹配任何POS标记?,regex,python-2.7,nlp,nltk,Regex,Python 2.7,Nlp,Nltk,我正在使用NLTK的RegexpParser从POS标记的单词中获取短语。例如: grammar = """ FOUND:{<NNP>+<CD>+<,>+<CD>} ... """ pos_tagged_words = [('February', 'NNP'), ('14', 'CD'), (',', ','), ('1993', 'CD')] result = nltk.RegexpParser
grammar = """
FOUND:{<NNP>+<CD>+<,>+<CD>}
...
"""
pos_tagged_words = [('February', 'NNP'), ('14', 'CD'), (',', ','), ('1993', 'CD')]
result = nltk.RegexpParser(grammar).parse(pos_tagged_words)
grammar=”“”
找到:{++}
...
"""
pos_-taged_-words=[('二月','NNP'),('14','CD'),('1993','CD'),('1993','CD')]
result=nltk.RegexpParser(语法).parse(词性标记词)
有没有办法匹配通配符标记?如果这起作用的话,我会找这样的东西:
FOUND:{<NNP>?<.>*<VBZ>}
找到:{?*}
通配符在哪里
编辑:找到了一个非常糟糕的方法,它并没有真正包含所有的角色。仍然需要一个专用的通配符字符
FOUND:{<NNP>?<[A-Z]+|[:punct:]+>*<VBZ>}
找到:{?*}
试试这个:
{<NNP>?<.*>*<VBZ>}
{?*}
您不能将*
替换为
或类似的东西吗
通常表示非换行字符,但我不确定NLTK的RegexpParser是否正确。