将自定义数据转换为spacy ner格式

将自定义数据转换为spacy ner格式,spacy,Spacy,我正在使用flair来训练一个定制的NER模型,但我也想尝试spacy,但我的数据目前是这种格式的 No O 1320160208478 B-NUM P O R O Name O Ryan B-PER Dsouza B-PER 关于如何将其格式化为spacy NER格式,有什么建议吗? 提前感谢。Spacy为一些常见格式提供了内置转换器,但这并不是其中之一。我认为最容易转换为CoNLL 2003 NER格式,它需要两个额外的空格分隔列,在单词和标记之间带有占位符值,以便IOB标记位于第4列:

我正在使用flair来训练一个定制的NER模型,但我也想尝试spacy,但我的数据目前是这种格式的

No O
1320160208478 B-NUM
P O
R O
Name O
Ryan B-PER
Dsouza B-PER
关于如何将其格式化为spacy NER格式,有什么建议吗?
提前感谢。

Spacy为一些常见格式提供了内置转换器,但这并不是其中之一。我认为最容易转换为CoNLL 2003 NER格式,它需要两个额外的空格分隔列,在单词和标记之间带有占位符值,以便IOB标记位于第4列:

没有 1320160208478_uu_uu-NUM P_uo R_uo 名称uo 瑞安·佩尔 德苏扎·佩尔 在句子之间放置空行,如果一个文件中有多个文档,可以在文档之间添加空行以分隔它们


-DOCSTART- -X- O O

然后,您可以使用内置转换器:

python -m spacy convert -c ner input.txt output_dir

另外,您确定数据中的Ryan Dsouza在一行中有两个B-PER标记吗?

好的,让我检查一下,是的,我在一行中有两个B-PER标记。问题是Ryan Dsouza是一个人还是两个人。如果是一个人,可能应该是B-PER I-PER.Hi@Ryan,你找到解决方法了吗?我有和你一样格式的数据。谢谢