Machine learning OpenNLP名称查找器培训:不支持的语言:en

Machine learning OpenNLP名称查找器培训:不支持的语言:en,machine-learning,nlp,training-data,opennlp,Machine Learning,Nlp,Training Data,Opennlp,根据文档中的指南,我正试图在一些数据上测试培训OpenNLP的名称查找器。但是,我遇到了错误:不支持的语言:en,这似乎没有任何意义 我运行的命令是:opennlp TokenNameFinderTrainer.conll03-model model.bin-lang en-types per、loc、org、misc-data train.txt-encoding UTF-8 我从下载了OpenNLP1.9.0。OPENNLP\u HOME环境变量似乎设置正确,基本文件夹中的lang文件夹包含

根据文档中的指南,我正试图在一些数据上测试培训OpenNLP的名称查找器。但是,我遇到了错误:
不支持的语言:en
,这似乎没有任何意义

我运行的命令是:
opennlp TokenNameFinderTrainer.conll03-model model.bin-lang en-types per、loc、org、misc-data train.txt-encoding UTF-8

我从下载了OpenNLP1.9.0。
OPENNLP\u HOME
环境变量似乎设置正确,基本文件夹中的
lang
文件夹包含一个
en
文件夹



编辑:这似乎与CoNLL2003格式有关。如果我尝试直接运行培训师而不指定
.conll2003
,它会起作用。然而,我的输入数据是CoNLL 2003格式的。运行
TokenNameFinderConverter
会出现相同的错误。即使在官方示例上尝试它也不起作用。

好吧,显然在
1.5.3
之后的某个版本中,对于CoNLL-2003相关命令,OpenNLP将语言代码从两个字符改为三个字符,即一个应该传入
eng
,而不是
en
。但文档从未就此更新过。(文档中有很多过时的部分。)我绞尽脑汁想弄明白这件事,花了两个小时!我做了一个公关来修复文档