Nlp 什么是CoNLL数据格式？_Nlp_Text Parsing_Text Mining_Information Extraction

Nlp 什么是CoNLL数据格式？

nlp

Nlp 什么是CoNLL数据格式？,nlp,text-parsing,text-mining,information-extraction,Nlp,Text Parsing,Text Mining,Information Extraction,我对文本挖掘是新手。我正在使用一个开源jar（Mate解析器），它在依赖项解析之后以Conll2009格式提供输出。我想使用依赖项解析结果进行信息提取。但我能够理解一些输出，但不能理解CoNLL数据格式。有人能帮我理解CoNLL数据格式吗？？任何类型的指针都将受到欢迎。有许多不同的格式，因为CoNLL每年都是不同的共享任务。描述了CoNLL 2009的格式。每行代表一个单词，带有一系列制表符分隔的字段表示空值。表示它使用CoNLL 2009的前12列： ID FORM LEMMA PLEMMA

我对文本挖掘是新手。我正在使用一个开源jar（Mate解析器），它在依赖项解析之后以Conll2009格式提供输出。我想使用依赖项解析结果进行信息提取。但我能够理解一些输出，但不能理解CoNLL数据格式。有人能帮我理解CoNLL数据格式吗？？任何类型的指针都将受到欢迎。

有许多不同的格式，因为CoNLL每年都是不同的共享任务。描述了CoNLL 2009的格式。每行代表一个单词，带有一系列制表符分隔的字段<代码>表示空值。表示它使用CoNLL 2009的前12列：

ID FORM LEMMA PLEMMA POS PPOS FEAT PFEAT HEAD PHEAD DEPREL PDEPREL

其中一些列的定义来自早期的共享任务（2006年和2007年使用的）：

```
ID
```
（句中索引，从1开始）
```
表单
```
（word表单本身）
```
引理
```
（单词的引理或词干）
```
POS
```
（词性）
```
FEAT
```
（以|分隔的形态特征列表）
```
头
```
（语法父项索引，0表示
```
根
```
）
```
DEPREL
```
（
```
HEAD
```
和这个词之间的语法关系）

这些列中有以

开头的变体（例如，

PPOS

，但不是

POS

）表示该值是自动预测的，而不是金标准值

更新：现在还有一种数据格式扩展了CoNLL-X格式。

更新@dmcc的答案：

CoNLL是NLP中TSV格式的常规名称（TSV-制表符分隔值，即CSV，带分隔符）
它起源于自然语言学习会议上组织的一系列共享任务（因此得名）
并非所有这些任务都使用“CoNLL”格式，有些任务使用JSON或XML格式
有一些独立于CoNLL开发的“CoNLL”格式，最著名的是CoNLL-U
CoNLL格式在列的选择和顺序上有所不同

在CoNLL格式中

每个单词（标记）都表示在一行中
每句话都用空行隔开
每列代表一个注释
句子中的每个单词都有相同的列数（在某些格式中：语料库中的每个单词都有相同的列数）
注释是关于特定单词的字符串值
跨越多个单词的注释有时使用特殊的标记，例如，圆括号（指示短语的开始和结束）或IOBES注释（例如，B-NP：NP的开始，i-NP：NP的中间，E-NP：NP的结尾，NP NP：NP在当前单词的开始和结束，o：没有NP注释）
某些CoNLL格式将一列或多列数字标识符作为第一列，之后的下一列（如果没有ID，则为第一列）通常包含单词
句子中第一个单词的ID是1。如果未提供ID列，则ID为句子中前面的单词数加1
在依存语法中，单词之间存在语法关系，依存词标记为HEAD（=父单词的ID）和EDGE/DEP[endence]（=语法关系），这两个词都在单独的列中
如果依赖语法中的单词没有父级（即，它是语法根），则将其头设置为0

使用声称支持（某些）“CoNLL格式”的工具或库时，请务必小心。不同的CoNLL格式具有不同的列顺序，开发人员可能不知道这一点。因此，如果从另一种（或未指定的）CoNLL格式获取数据，则它们可能无法按预期工作

< >在不同的CONLL格式之间转换，您可以考虑使用CONLL RDF（）、RESP、CoNLL Transform（）（免责声明：由我的实验室开发）

。在这个问题的注释中插图可能会帮助您：