Nlp BILOU标签在命名实体识别中的含义是什么？_Nlp_Named Entity Recognition

Nlp BILOU标签在命名实体识别中的含义是什么？

nlp

Nlp BILOU标签在命名实体识别中的含义是什么？,nlp,named-entity-recognition,Nlp,Named Entity Recognition,标题大致概括了这个问题。我注意到，在一些论文中，人们提到了NER的BILOU编码方案，而不是典型的生物标记方案（例如Ratinov和Roth在2009年的论文）从2003年的CoNLL数据中我知道 B stands for 'beginning' (signifies beginning of an NE) I stands for 'inside' (signifies that the word is inside an NE) O stands for 'outside' (signif

标题大致概括了这个问题。我注意到，在一些论文中，人们提到了NER的BILOU编码方案，而不是典型的生物标记方案（例如Ratinov和Roth在2009年的论文）

从2003年的CoNLL数据中我知道

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)

当我被告知BILOU中的单词代表

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'

我还看到人们引用了另一个标签

E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag

我对NER的文献还很陌生，但我一直找不到能清楚解释这些标签的东西。我的问题特别涉及到“last”和“end”标记之间的区别，以及“unit”标记代表什么。

基于Clear TK中的an和a，BILOU似乎代表“多标记块的开始、内部和最后标记”，单位长度块和外部”（重点添加）。例如，用括号表示的组块

(foo foo foo) (bar) no no no (bar bar)

可以用BILOU编码为

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar

我想补充一些比较BIO和BILOU方案的经验。我的实验仅在一个数据集上进行，可能不具有代表性

我的数据集包含大约3.5万个简短的话语（2-10个标记），并使用11个不同的标记进行注释。换句话说，有11个命名实体

使用的特征包括单词、左右2克、1-5个字符的图形（中间的除外）、形状特征等。很少有实体也有地名录支持

我洗牌了数据集，并将其分成80/20部分：培训和测试。这个过程重复了5次，我记录了每个实体的精确度、召回率和F1测量值。业绩是在实体层面上衡量的，而不是在Ratinov&Roth，2009年论文中所述的代币层面

我用来训练模型的软件是CRFSuite。我使用c1=0和c2=1的L-BFGS解算器

首先，5倍的测试结果非常相似。这意味着运行之间几乎没有变化，这是好的。其次，BIO方案的性能与BILOU方案非常相似。如果有任何显著性差异，可能是在精度、召回率和F1测量值周期后的第三位或第四位

结论：在我的实验中，BILOU方案并不比BIO方案好（但也不差）

B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole

比卢和小熊一样

还有BMEWO+，它将有关周围单词类的更多信息放在外部标记上（因此是“O+”）

请参见此处的详细信息

B-“开始”

I-“内部”

L-“最后”

O-“外部/其他”

U-‘单格’

BIO

与

BILOU

相同，除了以下几点：

在

BILOU

中，特定

集群中的最后一个

标记将转换为

。例如

在

BILOU

中，任何独立标记都将转换为
U
标记。例如

以下是一组在
BIO
和
BILOU
符号中表示的相同标记：

BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O

这只会为标记提供更多上下文，说明实体的哪一部分

BILOU Method/Schema | ------|--------------------| | BEGIN | The first token | | ------|--------------------| | IN | An inner token | | ------|--------------------| | LAST | The final token | | ------|--------------------| | Unit | A single-token | | ------|--------------------| | Out | A non-entity token | | ------|--------------------|
贝欧斯
更复杂的注释方法区分命名实体的结尾和单个实体。这种方法称为Begin、INDER、EXTER、End和Single的生物等效性

IOB（例如CoNLL 2003）
IOB（或BIO）代表开始、内部和外部。用O标记的单词在命名实体之外

有关更多详细信息，请点击以下链接

URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging) URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf

我觉得情况就是这样。这似乎是一个奇怪的变化，因为完全相同的信息可以只通过生物标签进行交流。我想切换到BILOU是为了提高ML算法的性能。没错，但是BILOU边界将是隐式的。您还可以争辩说，只使用一个标记也同样有效。通常，额外的标签在分类后为解释有问题的边缘情况提供更有用的信息。仅使用单个“非输出”标签，即仅（i）nside和（O）utside，不足以区分后续实体，例如
no（foo-bar）（baz）no
=
O
=
no（foo-bar-baz）否
您能在“我还看到人们引用了另一个标签”上添加引用吗？
BILOU Method/Schema | ------|--------------------| | BEGIN | The first token | | ------|--------------------| | IN | An inner token | | ------|--------------------| | LAST | The final token | | ------|--------------------| | Unit | A single-token | | ------|--------------------| | Out | A non-entity token | | ------|--------------------|

URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging) URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf