Nlp TurboParser的依赖解析输出意味着什么?

Nlp TurboParser的依赖解析输出意味着什么?,nlp,parse-tree,Nlp,Parse Tree,我一直在尝试使用由生成的依赖项解析树。它工作完美无瑕。然而,问题是文档很少。我需要准确地理解解析器的输出。例如,“我用统计数据解决了问题”这句话会生成以下输出: 1 I _ PRP PRP _ 2 SUB 2 solved _ VBD VBD _ 0 ROOT 3 the _ DT DT _ 4 NMOD 4 problem _ NN NN _ 2 OBJ 5 wit

我一直在尝试使用由生成的依赖项解析树。它工作完美无瑕。然而,问题是文档很少。我需要准确地理解解析器的输出。例如,“我用统计数据解决了问题”这句话会生成以下输出:

1   I           _   PRP PRP _   2   SUB
2   solved      _   VBD VBD _   0   ROOT
3   the         _   DT  DT  _   4   NMOD
4   problem     _   NN  NN  _   2   OBJ
5   with        _   IN  IN  _   2   VMOD
6   statistics  _   NNS NNS _   5   PMOD
7   .           _   .   .   _   2   P
我还没有找到任何文档可以帮助理解各个列代表什么,以及最后第二列(2,0,4,2,…)中的索引是如何创建的。另外,我不知道为什么有两个专栏专门讨论词性标记。任何帮助(或指向外部文档的链接)都将非常有用

另外,如果您想试用他们的解析器


p.p.S.请不要建议使用斯坦福大学的依赖解析输出。我对线性规划算法感兴趣,这不是斯坦福大学的NLP系统所做的。

我不知道TurboParser,但我猜第一个数字表示令牌的id,第二个数字表示其调控器的id。 也就是说,以你为例:

solved(
 I,
 problem(the),
 with(statistics),
 .
)

实际上,这是CoNLL-X格式。您可以在此处获得更多信息:

以下是TurboParser输出的每列的含义:

  • 标记的id,即其在句子中基于一个的索引
  • 原始标记与原始文本中相同
  • 引理,标记的引理化形式(此处为空,因为未设置引理化器)
  • 标记(粗粒度词性标记)
  • 标记(细粒度词性标记,与TurboParser的4.相同)
  • 形态特征(此处为空)
  • 标记的头,由其索引表示(根标记的头值为
    0
  • 当前标记与其头部的关系

  • 您提供的生成输出可以表示为:

    有关CoNLL-X格式的更多信息: