如何从Stanford NLP工具获得增强的依赖项解析?
我正在做一个关于波兰语依赖项解析的项目。我们正在尝试对来自波兰语的数据训练斯坦福神经网络依赖解析器(使用.conllu格式的通用依赖树库)。数据已经标记和注释,所以我们既没有训练标记器,也没有训练核心NLP提供的解析器。到目前为止,通过从命令行运行解析器,我们已经能够在标准依赖关系中使用pl_lfg-ud树库取得一些成功。但是我们还想训练解析器重现增强的通用依赖项,它们也在树库中表示。到目前为止,我还没能找到一种方法来解决这个问题 NNDEP和CORE NLP的文档和常见问题解答,尽管据我所知,使用斯坦福NLP解析器是可能的。是增强的依赖项解析只适用于英语(或其他官方支持的语言),还是我只是做错了什么如何从Stanford NLP工具获得增强的依赖项解析?,nlp,stanford-nlp,dependency-parsing,Nlp,Stanford Nlp,Dependency Parsing,我正在做一个关于波兰语依赖项解析的项目。我们正在尝试对来自波兰语的数据训练斯坦福神经网络依赖解析器(使用.conllu格式的通用依赖树库)。数据已经标记和注释,所以我们既没有训练标记器,也没有训练核心NLP提供的解析器。到目前为止,通过从命令行运行解析器,我们已经能够在标准依赖关系中使用pl_lfg-ud树库取得一些成功。但是我们还想训练解析器重现增强的通用依赖项,它们也在树库中表示。到目前为止,我还没能找到一种方法来解决这个问题 NNDEP和CORE NLP的文档和常见问题解答,尽管据我所知,
如果有任何线索,我将不胜感激 这里有关于如何训练模特的信息: 命令示例:
java -Xmx12g edu.stanford.nlp.parser.nndep.DependencyParser -trainFile fr-ud-train.conllu -devFile fr-ud-dev.conllu -model new-french-UD-model.txt.gz -embedFile wiki.fr.vec -embeddingSize 300 -tlp edu.stanford.nlp.trees.international.french.FrenchTreebankLanguagePack -cPOS
您还需要训练词性模型:
命令示例:
java -mx1g edu.stanford.nlp.tagger.maxent.MaxentTagger -props myPropertiesFile.props
您可以在文档中找到适当样式的培训文件
示例文件:
## tagger training invoked at Sun Sep 23 19:24:37 PST 2018 with arguments:
model = english-left3words-distsim.tagger
arch = left3words,naacl2003unknowns,wordshapes(-1,1),distsim(/u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters,-1,1),distsimconjunction(/u/nlp/data/pos_tags_are_useless/egw4-reut.512.clusters,-1,1)
wordFunction = edu.stanford.nlp.process.AmericanizeFunction
trainFile = /path/to/training-data
closedClassTags =
closedClassTagThreshold = 40
curWordMinFeatureThresh = 2
debug = false
debugPrefix =
tagSeparator = _
encoding = UTF-8
iterations = 100
lang = english
learnClosedClassTags = false
minFeatureThresh = 2
openClassTags =
rareWordMinFeatureThresh = 10
rareWordThresh = 5
search = owlqn
sgml = false
sigmaSquared = 0.0
regL1 = 0.75
tagInside =
tokenize = true
tokenizerFactory =
tokenizerOptions =
verbose = false
verboseResults = true
veryCommonWordThresh = 250
xmlInput =
outputFile =
outputFormat = slashTags
outputFormatOptions =
nthreads = 1
此处列出了示例培训属性文件的详细列表:
如果使用Java管道,则需要编写标记器或提供预先标记的文本
您可能会对我们的Python项目感兴趣,它有一个用于标记化、句子分割、柠檬化和依赖项解析的波兰模型。您还可以训练自己的模型: