Nlp 我在哪里可以获得CoNLL-X培训数据?
我试图训练斯坦福神经网络依赖解析器来检查短语相似性 我尝试的方式是:Nlp 我在哪里可以获得CoNLL-X培训数据?,nlp,stanford-nlp,dependency-parsing,Nlp,Stanford Nlp,Dependency Parsing,我试图训练斯坦福神经网络依赖解析器来检查短语相似性 我尝试的方式是: java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz 我得到的错误是: Train File: C
java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz
我得到的错误是:
Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt
Dev File: null
Model File: modelOutputFile.txt.gz
Embedding File: null
Pre-trained Model File: null
################### Train
#Trees: 1
0 tree(s) are illegal (0.00%).
1 tree(s) are legal but have multiple roots (100.00%).
0 tree(s) are legal but not projective (0.00%).
###################
#Word: 3
#POS:3
#Label: 2
###################
#Transitions: 3
#Labels: 1
ROOTLABEL: null
Random generator initialized with seed 1459831358061
Exception in thread "main" java.lang.NullPointerException
at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49)
at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile. (DependencyParser.java:636)
at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787)
at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676)
at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247)
代码中嵌入的帮助说明培训文件应该是“CoNLL-X格式的培训树库路径”
有人知道我在哪里可以找到一些CoNLL-X训练数据进行训练吗?
我给了培训文件,但没有嵌入文件,并得到了这个错误。
我的猜测是,如果我给嵌入文件,它可能会工作
请说明我应该使用哪个培训文件和嵌入文件,以及在哪里可以找到它们。CoNLL-X树库 您可以免费获得丹麦语、荷兰语、葡萄牙语和瑞典语的培训数据。不幸的是,对于其他语言,您可能需要从LDC获得树库许可(该页面上有许多语言的详细信息) 是CoNLL-U格式,通常可以通过一些工作转换为CoNLL-X格式 最后,有一个树库的大列表及其在上的可用性。您应该能够将此列表中的许多依赖关系树库转换为CoNLL-X格式(如果它们尚未采用该格式) 训练斯坦福神经网络依赖解析器
From:嵌入文件是可选的,但树库不是。要使用的最佳树库和嵌入文件取决于要解析的语言和文本类型。理想情况下,您应该在试图解析的域/类型中尽可能多地使用数据进行训练。谢谢@dmcc I省略了嵌入文件并提供了conll数据。它现在运行。