Stanford nlp Java CoreNLP中缺少StanfordNLP通用依赖项功能

Stanford nlp Java CoreNLP中缺少StanfordNLP通用依赖项功能,stanford-nlp,Stanford Nlp,使用最新的CoreNLP 3.9.2 Java API,我希望提取新的Universal Dependencies特性,因为它们出现在中,并且在这里定义-。具体而言: 多字标记 通用依赖格式(UPOS)的POS标签 UD格式的语法依赖项(使用UPOS标记) 当前的CoreNLP生成Penn Tree POS标记和依赖项,分别如和所述 管道配置: Properties props = new Properties(); props.setProperty("annotators",

使用最新的CoreNLP 3.9.2 Java API,我希望提取新的Universal Dependencies特性,因为它们出现在中,并且在这里定义-。具体而言:

  • 多字标记
  • 通用依赖格式(UPOS)的POS标签
  • UD格式的语法依赖项(使用UPOS标记)
  • 当前的CoreNLP生成Penn Tree POS标记和依赖项,分别如和所述

    管道配置:

        Properties props = new Properties();
        props.setProperty("annotators", "tokenize,ssplit,pos,lemma,ner,parse,depparse,coref,kbp,quote");
        props.setProperty("coref.algorithm", "neural");
        StanfordCoreNLP pipeline = new StanfordCoreNLP(props);
        CoreDocument document = new CoreDocument(text);
        pipeline.annotate(document);
    
        CoreSentence sentence = document.sentences().get(0);
        sentence.posTags() // get pos tags
        sentence.dependencyParse() // dependency graph
    

    非常感谢您对我的误解给予任何帮助和澄清。

    GitHub版本的法语、德语和西班牙语代码和模型都经过了CoNLL 2018 UD数据的培训,并支持多单词标记

    我们可能会也可能不会训练英语UD词性模型

    我相信选区解析器数据使用的是特定于英语的词性标记


    这些更改将被放到4.0.0版本中,有望在年底前完成。

    谢谢。当你说github版本时,你指的是Java corenlp吗?如果是这样,在这种情况下,我如何获得英语的多单词标记?据我所知,英语没有多单词标记。如果你看看CoNLL 2018英语网页树库,它没有任何多单词标记。