Warning: file_get_contents(/data/phpspider/zhask/data//catemap/4/kotlin/3.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 什么是CoNLL数据格式?_Nlp_Text Parsing_Text Mining_Information Extraction - Fatal编程技术网

Nlp 什么是CoNLL数据格式?

Nlp 什么是CoNLL数据格式?,nlp,text-parsing,text-mining,information-extraction,Nlp,Text Parsing,Text Mining,Information Extraction,我对文本挖掘是新手。我正在使用一个开源jar(Mate解析器),它在依赖项解析之后以Conll2009格式提供输出。我想使用依赖项解析结果进行信息提取。但我能够理解一些输出,但不能理解CoNLL数据格式。有人能帮我理解CoNLL数据格式吗??任何类型的指针都将受到欢迎。有许多不同的格式,因为CoNLL每年都是不同的共享任务。描述了CoNLL 2009的格式。每行代表一个单词,带有一系列制表符分隔的字段表示空值。表示它使用CoNLL 2009的前12列: ID FORM LEMMA PLEMMA

我对文本挖掘是新手。我正在使用一个开源jar(Mate解析器),它在依赖项解析之后以Conll2009格式提供输出。我想使用依赖项解析结果进行信息提取。但我能够理解一些输出,但不能理解CoNLL数据格式。有人能帮我理解CoNLL数据格式吗??任何类型的指针都将受到欢迎。

有许多不同的格式,因为CoNLL每年都是不同的共享任务。描述了CoNLL 2009的格式。每行代表一个单词,带有一系列制表符分隔的字段<代码>表示空值。表示它使用CoNLL 2009的前12列:

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL
其中一些列的定义来自早期的共享任务(2006年和2007年使用的):

  • ID
    (句中索引,从1开始)
  • 表单
    (word表单本身)
  • 引理
    (单词的引理或词干)
  • POS
    (词性)
  • FEAT
    (以|分隔的形态特征列表)
  • (语法父项索引,0表示
  • DEPREL
    HEAD
    和这个词之间的语法关系)
这些列中有以
p
开头的变体(例如,
PPOS
,但不是
POS
)表示该值是自动预测的,而不是金标准值


更新:现在还有一种数据格式扩展了CoNLL-X格式。

更新@dmcc的答案:

  • CoNLL是NLP中TSV格式的常规名称(TSV-制表符分隔值,即CSV,带分隔符)
  • 它起源于自然语言学习会议上组织的一系列共享任务(因此得名)
  • 并非所有这些任务都使用“CoNLL”格式,有些任务使用JSON或XML格式
  • 有一些独立于CoNLL开发的“CoNLL”格式,最著名的是CoNLL-U
  • CoNLL格式在列的选择和顺序上有所不同
在CoNLL格式中

  • 每个单词(标记)都表示在一行中
  • 每句话都用空行隔开
  • 每列代表一个注释
  • 句子中的每个单词都有相同的列数(在某些格式中:语料库中的每个单词都有相同的列数)
  • 注释是关于特定单词的字符串值
  • 跨越多个单词的注释有时使用特殊的标记,例如,圆括号(指示短语的开始和结束)或IOBES注释(例如,B-NP:NP的开始,i-NP:NP的中间,E-NP:NP的结尾,NP NP:NP在当前单词的开始和结束,o:没有NP注释)
  • 某些CoNLL格式将一列或多列数字标识符作为第一列,之后的下一列(如果没有ID,则为第一列)通常包含单词
  • 句子中第一个单词的ID是1。如果未提供ID列,则ID为句子中前面的单词数加1
  • 在依存语法中,单词之间存在语法关系,依存词标记为HEAD(=父单词的ID)和EDGE/DEP[endence](=语法关系),这两个词都在单独的列中
  • 如果依赖语法中的单词没有父级(即,它是语法根),则将其头设置为0
使用声称支持(某些)“CoNLL格式”的工具或库时,请务必小心。不同的CoNLL格式具有不同的列顺序,开发人员可能不知道这一点。因此,如果从另一种(或未指定的)CoNLL格式获取数据,则它们可能无法按预期工作


< >在不同的CONLL格式之间转换,您可以考虑使用CONLL RDF()、RESP、CoNLL Transform()(免责声明:由我的实验室开发)

。在这个问题的注释中插图可能会帮助您: