Nlp 什么是CoNLL数据格式?
我对文本挖掘是新手。我正在使用一个开源jar(Mate解析器),它在依赖项解析之后以Conll2009格式提供输出。我想使用依赖项解析结果进行信息提取。但我能够理解一些输出,但不能理解CoNLL数据格式。有人能帮我理解CoNLL数据格式吗??任何类型的指针都将受到欢迎。有许多不同的格式,因为CoNLL每年都是不同的共享任务。描述了CoNLL 2009的格式。每行代表一个单词,带有一系列制表符分隔的字段<代码>表示空值。表示它使用CoNLL 2009的前12列:Nlp 什么是CoNLL数据格式?,nlp,text-parsing,text-mining,information-extraction,Nlp,Text Parsing,Text Mining,Information Extraction,我对文本挖掘是新手。我正在使用一个开源jar(Mate解析器),它在依赖项解析之后以Conll2009格式提供输出。我想使用依赖项解析结果进行信息提取。但我能够理解一些输出,但不能理解CoNLL数据格式。有人能帮我理解CoNLL数据格式吗??任何类型的指针都将受到欢迎。有许多不同的格式,因为CoNLL每年都是不同的共享任务。描述了CoNLL 2009的格式。每行代表一个单词,带有一系列制表符分隔的字段表示空值。表示它使用CoNLL 2009的前12列: ID FORM LEMMA PLEMMA
ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
其中一些列的定义来自早期的共享任务(2006年和2007年使用的):
(句中索引,从1开始)ID
(word表单本身)表单
(单词的引理或词干)引理
(词性)POS
(以|分隔的形态特征列表)FEAT
(语法父项索引,0表示头
)根
(DEPREL
和这个词之间的语法关系)HEAD
p
开头的变体(例如,PPOS
,但不是POS
)表示该值是自动预测的,而不是金标准值
更新:现在还有一种数据格式扩展了CoNLL-X格式。更新@dmcc的答案:
- CoNLL是NLP中TSV格式的常规名称(TSV-制表符分隔值,即CSV,带分隔符)
- 它起源于自然语言学习会议上组织的一系列共享任务(因此得名)
- 并非所有这些任务都使用“CoNLL”格式,有些任务使用JSON或XML格式
- 有一些独立于CoNLL开发的“CoNLL”格式,最著名的是CoNLL-U
- CoNLL格式在列的选择和顺序上有所不同
- 每个单词(标记)都表示在一行中
- 每句话都用空行隔开
- 每列代表一个注释
- 句子中的每个单词都有相同的列数(在某些格式中:语料库中的每个单词都有相同的列数)
- 注释是关于特定单词的字符串值
- 跨越多个单词的注释有时使用特殊的标记,例如,圆括号(指示短语的开始和结束)或IOBES注释(例如,B-NP:NP的开始,i-NP:NP的中间,E-NP:NP的结尾,NP NP:NP在当前单词的开始和结束,o:没有NP注释)
- 某些CoNLL格式将一列或多列数字标识符作为第一列,之后的下一列(如果没有ID,则为第一列)通常包含单词
- 句子中第一个单词的ID是1。如果未提供ID列,则ID为句子中前面的单词数加1
- 在依存语法中,单词之间存在语法关系,依存词标记为HEAD(=父单词的ID)和EDGE/DEP[endence](=语法关系),这两个词都在单独的列中
- 如果依赖语法中的单词没有父级(即,它是语法根),则将其头设置为0
< >在不同的CONLL格式之间转换,您可以考虑使用CONLL RDF()、RESP、CoNLL Transform()(免责声明:由我的实验室开发)。在这个问题的注释中插图可能会帮助您: