在openNLP中使用标记器

在openNLP中使用标记器,nlp,opennlp,Nlp,Opennlp,我得到R中的POS标记文本,格式如下: id类型开始-结束功能 1个字15个位置=NNP 2字7 8位=英寸 例如,我想检索它标记的单词,而不是包含所有值的列“type”,因为单词检索实际单词。我可以使用scan_标记器,但当出现“is not”这样的形式时,问题就出现了。POS标记器将其分为“is”和“not”,这很好,但scan_标记器不会这样标记,它只是将其保持在“is not”。有人能帮我检索R标记并用于POS标记的单词吗 谢谢为什么不使用伊利诺伊POS标记器?它易于使用和可视化:

我得到R中的POS标记文本,格式如下:


id类型开始-结束功能
1个字15个位置=NNP
2字7 8位=英寸

例如,我想检索它标记的单词,而不是包含所有值的列“type”,因为单词检索实际单词。我可以使用scan_标记器,但当出现“is not”这样的形式时,问题就出现了。POS标记器将其分为“is”和“not”,这很好,但scan_标记器不会这样标记,它只是将其保持在“is not”。有人能帮我检索R标记并用于POS标记的单词吗


谢谢

为什么不使用伊利诺伊POS标记器?它易于使用和可视化:


嗨,丹尼尔,谢谢你。我想到的几个问题是:(1)它是否具有与最大熵模型相同的精度水平?(2) 它能在包含多个文件的文件夹上工作吗?我还使用了树形标记器,它可以用于第二部分,但我有点担心一些准确性。虽然我喜欢斯坦福模型,但我不知道如何让它在多个文件上运行并获得结构化输出。(1)在本文中,它是最先进的模型之一。(2) 对他们两个来说绝对可能。如果以编程方式使用它们,则可以逐个读取和解析每个文件。