Nlp 我在哪里可以获得CoNLL-X培训数据?

Nlp 我在哪里可以获得CoNLL-X培训数据?,nlp,stanford-nlp,dependency-parsing,Nlp,Stanford Nlp,Dependency Parsing,我试图训练斯坦福神经网络依赖解析器来检查短语相似性 我尝试的方式是: java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz 我得到的错误是: Train File: C

我试图训练斯坦福神经网络依赖解析器来检查短语相似性

我尝试的方式是:

java edu.stanford.nlp.parser.nndep.DependencyParser -trainFile trainPath -devFile devPath -embedFile wordEmbeddingFile -embeddingSize wordEmbeddingDimensionality -model modelOutputFile.txt.gz
我得到的错误是:

Train File: C:\Users\rohit\Downloads\CoreNLP-master\CoreNLP-master\data\edu\stanford\nlp\parser\trees\en-onetree.txt
Dev File: null
Model File: modelOutputFile.txt.gz
Embedding File: null
Pre-trained Model File: null
################### Train
#Trees: 1
0 tree(s) are illegal (0.00%).
1 tree(s) are legal but have multiple roots (100.00%).
0 tree(s) are legal but not projective (0.00%).
###################
#Word: 3
#POS:3
#Label: 2
###################
#Transitions: 3
#Labels: 1
ROOTLABEL: null
Random generator initialized with seed 1459831358061
Exception in thread "main" java.lang.NullPointerException
    at edu.stanford.nlp.parser.nndep.Util.scaling(Util.java:49)
    at edu.stanford.nlp.parser.nndep.DependencyParser.readEmbedFile.  (DependencyParser.java:636)
    at edu.stanford.nlp.parser.nndep.DependencyParser.setupClassifierForTraining(DependencyParser.java:787)
    at edu.stanford.nlp.parser.nndep.DependencyParser.train(DependencyParser.java:676)
    at edu.stanford.nlp.parser.nndep.DependencyParser.main(DependencyParser.java:1247)
代码中嵌入的帮助说明培训文件应该是“CoNLL-X格式的培训树库路径”

有人知道我在哪里可以找到一些CoNLL-X训练数据进行训练吗? 我给了培训文件,但没有嵌入文件,并得到了这个错误。 我的猜测是,如果我给嵌入文件,它可能会工作


请说明我应该使用哪个培训文件和嵌入文件,以及在哪里可以找到它们。

CoNLL-X树库

您可以免费获得丹麦语、荷兰语、葡萄牙语和瑞典语的培训数据。不幸的是,对于其他语言,您可能需要从LDC获得树库许可(该页面上有许多语言的详细信息)

是CoNLL-U格式,通常可以通过一些工作转换为CoNLL-X格式

最后,有一个树库的大列表及其在上的可用性。您应该能够将此列表中的许多依赖关系树库转换为CoNLL-X格式(如果它们尚未采用该格式)

训练斯坦福神经网络依赖解析器


From:嵌入文件是可选的,但树库不是。要使用的最佳树库和嵌入文件取决于要解析的语言和文本类型。理想情况下,您应该在试图解析的域/类型中尽可能多地使用数据进行训练。

谢谢@dmcc I省略了嵌入文件并提供了conll数据。它现在运行。