Nlp BILOU标签在命名实体识别中的含义是什么?
标题大致概括了这个问题。我注意到,在一些论文中,人们提到了NER的BILOU编码方案,而不是典型的生物标记方案(例如Ratinov和Roth在2009年的论文) 从2003年的CoNLL数据中我知道Nlp BILOU标签在命名实体识别中的含义是什么?,nlp,named-entity-recognition,Nlp,Named Entity Recognition,标题大致概括了这个问题。我注意到,在一些论文中,人们提到了NER的BILOU编码方案,而不是典型的生物标记方案(例如Ratinov和Roth在2009年的论文) 从2003年的CoNLL数据中我知道 B stands for 'beginning' (signifies beginning of an NE) I stands for 'inside' (signifies that the word is inside an NE) O stands for 'outside' (signif
B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
当我被告知BILOU中的单词代表
B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
我还看到人们引用了另一个标签
E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag
我对NER的文献还很陌生,但我一直找不到能清楚解释这些标签的东西。我的问题特别涉及到“last”和“end”标记之间的区别,以及“unit”标记代表什么。基于Clear TK中的an和a,BILOU似乎代表“多标记块的开始、内部和最后标记”,单位长度块和外部”(重点添加)。例如,用括号表示的组块
(foo foo foo) (bar) no no no (bar bar)
可以用BILOU编码为
B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar
我想补充一些比较BIO和BILOU方案的经验。我的实验仅在一个数据集上进行,可能不具有代表性 我的数据集包含大约3.5万个简短的话语(2-10个标记),并使用11个不同的标记进行注释。换句话说,有11个命名实体 使用的特征包括单词、左右2克、1-5个字符的图形(中间的除外)、形状特征等。很少有实体也有地名录支持 我洗牌了数据集,并将其分成80/20部分:培训和测试。这个过程重复了5次,我记录了每个实体的精确度、召回率和F1测量值。业绩是在实体层面上衡量的,而不是在Ratinov&Roth,2009年论文中所述的代币层面 我用来训练模型的软件是CRFSuite。我使用c1=0和c2=1的L-BFGS解算器 首先,5倍的测试结果非常相似。这意味着运行之间几乎没有变化,这是好的。其次,BIO方案的性能与BILOU方案非常相似。如果有任何显著性差异,可能是在精度、召回率和F1测量值周期后的第三位或第四位 结论:在我的实验中,BILOU方案并不比BIO方案好(但也不差)
B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole
比卢和小熊一样
还有BMEWO+,它将有关周围单词类的更多信息放在外部标记上(因此是“O+”)
请参见此处的详细信息
BIO
与BILOU
相同,除了以下几点:
BILOU
中,特定I
集群中的最后一个I
标记将转换为L
。
例如BILOU
中,任何独立标记都将转换为U
标记。
例如BIO
和BILOU
符号中表示的相同标记:
BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O
BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O
这只会为标记提供更多上下文,说明实体的哪一部分
BILOU Method/Schema
| ------|--------------------|
| BEGIN | The first token |
| ------|--------------------|
| IN | An inner token |
| ------|--------------------|
| LAST | The final token |
| ------|--------------------|
| Unit | A single-token |
| ------|--------------------|
| Out | A non-entity token |
| ------|--------------------|
贝欧斯
更复杂的注释方法区分命名实体的结尾和单个实体。这种方法称为Begin、INDER、EXTER、End和Single的生物等效性
IOB(例如CoNLL 2003) IOB(或BIO)代表开始、内部和外部。用O标记的单词在命名实体之外
有关更多详细信息,请点击以下链接
URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)
URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf
我觉得情况就是这样。这似乎是一个奇怪的变化,因为完全相同的信息可以只通过生物标签进行交流。我想切换到BILOU是为了提高ML算法的性能。没错,但是BILOU边界将是隐式的。您还可以争辩说,只使用一个标记也同样有效。通常,额外的标签在分类后为解释有问题的边缘情况提供更有用的信息。仅使用单个“非输出”标签,即仅(i)nside和(O)utside,不足以区分后续实体,例如
no(foo-bar)(baz)no
=O
=no(foo-bar-baz)否
您能在“我还看到人们引用了另一个标签”上添加引用吗?
BILOU Method/Schema
| ------|--------------------|
| BEGIN | The first token |
| ------|--------------------|
| IN | An inner token |
| ------|--------------------|
| LAST | The final token |
| ------|--------------------|
| Unit | A single-token |
| ------|--------------------|
| Out | A non-entity token |
| ------|--------------------|
URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)
URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf