Python 3.x 将初始输出导出到spacy';s培训输入格式

Python 3.x 将初始输出导出到spacy';s培训输入格式,python-3.x,spacy,ner,Python 3.x,Spacy,Ner,我正在使用INCEpTION 0.11.0()对我的培训数据进行注释。 我想使用python spacy来使用这些培训数据。我可以在《盗梦空间》中看到两种格式,可以导出到其中,但我不确定哪种格式最适合spacy 我看不到任何关于将这些导出文件转换为space格式的文档 我可以写一个新的脚本来完成这个转换。在做这件事之前,我想知道是否有人已经解决了这个问题,并能给出一些建议?我应该选择哪种导出格式,以便更容易转换为spacy的格式?将数据导出为CONLLU可能是最简单的方法。SpaCy可以使用:

我正在使用INCEpTION 0.11.0()对我的培训数据进行注释。 我想使用python spacy来使用这些培训数据。我可以在《盗梦空间》中看到两种格式,可以导出到其中,但我不确定哪种格式最适合spacy

我看不到任何关于将这些导出文件转换为space格式的文档


我可以写一个新的脚本来完成这个转换。在做这件事之前,我想知道是否有人已经解决了这个问题,并能给出一些建议?我应该选择哪种导出格式,以便更容易转换为spacy的格式?

将数据导出为CONLLU可能是最简单的方法。SpaCy可以使用:
python-msapacy convert/path/to/input/doc.connlu/path/to/output/doc.jsonl-c CONLLU将CONLLU文档转换为预期格式


您会发现它支持CONLL文档的转换,但不清楚支持哪种CONLL格式。您可以通过使用上面的
-c
参数来尝试这一点。

您正在培训哪些任务?我正在尝试创建自定义培训数据集,在搜索中,我发现了有关inception的信息,并考虑尝试使用它。inception生成了.conll文档,但在转换为spacy格式时出现异常。要么我在注释时做错了什么,要么初始输出不正确..文件“home/.pyenv/versions/legal/lib/python3.7/site packages/spacy/cli/conllu2json.py”,第65行,在read_-conllx id_2;、word、lemma、pos、tag、morph、head、dep、_-1、iob=parts-ValueError:没有足够的值来解包(预期值为10,得到1)您有哪个版本的spaCy?spaCy版本2.1.8平台Darwin-17.7.0-x86_64-i386-64位Python版本3.7.4模型