Nlp BILOU标签在命名实体识别中的含义是什么?

Nlp BILOU标签在命名实体识别中的含义是什么?,nlp,named-entity-recognition,Nlp,Named Entity Recognition,标题大致概括了这个问题。我注意到,在一些论文中,人们提到了NER的BILOU编码方案,而不是典型的生物标记方案(例如Ratinov和Roth在2009年的论文) 从2003年的CoNLL数据中我知道 B stands for 'beginning' (signifies beginning of an NE) I stands for 'inside' (signifies that the word is inside an NE) O stands for 'outside' (signif

标题大致概括了这个问题。我注意到,在一些论文中,人们提到了NER的BILOU编码方案,而不是典型的生物标记方案(例如Ratinov和Roth在2009年的论文)

从2003年的CoNLL数据中我知道

B stands for 'beginning' (signifies beginning of an NE)
I stands for 'inside' (signifies that the word is inside an NE)
O stands for 'outside' (signifies that the word is just a regular word outside of an NE)
当我被告知BILOU中的单词代表

B - 'beginning'
I - 'inside'
L - 'last'
O - 'outside'
U - 'unit'
我还看到人们引用了另一个标签

E - 'end', use it concurrently with the 'last' tag
S - 'singleton', use it concurrently with the 'unit' tag
我对NER的文献还很陌生,但我一直找不到能清楚解释这些标签的东西。我的问题特别涉及到“last”和“end”标记之间的区别,以及“unit”标记代表什么。

基于Clear TK中的an和a,BILOU似乎代表“多标记块的开始、内部和最后标记”,单位长度块和外部”(重点添加)。例如,用括号表示的组块

(foo foo foo) (bar) no no no (bar bar)
可以用BILOU编码为

B-foo, I-foo, L-foo, U-bar, O, O, O, B-bar, L-bar

我想补充一些比较BIO和BILOU方案的经验。我的实验仅在一个数据集上进行,可能不具有代表性

我的数据集包含大约3.5万个简短的话语(2-10个标记),并使用11个不同的标记进行注释。换句话说,有11个命名实体

使用的特征包括单词、左右2克、1-5个字符的图形(中间的除外)、形状特征等。很少有实体也有地名录支持

我洗牌了数据集,并将其分成80/20部分:培训和测试。这个过程重复了5次,我记录了每个实体的精确度、召回率和F1测量值。业绩是在实体层面上衡量的,而不是在Ratinov&Roth,2009年论文中所述的代币层面

我用来训练模型的软件是CRFSuite。我使用c1=0和c2=1的L-BFGS解算器

首先,5倍的测试结果非常相似。这意味着运行之间几乎没有变化,这是好的。其次,BIO方案的性能与BILOU方案非常相似。如果有任何显著性差异,可能是在精度、召回率和F1测量值周期后的第三位或第四位

结论:在我的实验中,BILOU方案并不比BIO方案好(但也不差)

B = Beginning
I/M = Inside / Middle
L/E = Last / End
O = Outside
U/W = Unit-length / Whole
比卢和小熊一样

还有BMEWO+,它将有关周围单词类的更多信息放在外部标记上(因此是“O+”)

请参见此处的详细信息
  • B-“开始”
  • I-“内部”
  • L-“最后”
  • O-“外部/其他”
  • U-‘单格’

  • BIO
    BILOU
    相同,除了以下几点:

  • BILOU
    中,特定
    I
    集群中的最后一个
    I
    标记将转换为
    L
    。 例如
  • BILOU
    中,任何独立标记都将转换为
    U
    标记。 例如
  • 以下是一组在
    BIO
    BILOU
    符号中表示的相同标记:

    BIO - B-foo, I-foo, I-foo, O, O, B-bar, I-bar, O, B-bar, O
    BILOU - B-foo, I-foo, L-foo, O, O, B-bar, L-bar, O, U-bar, O
    

    这只会为标记提供更多上下文,说明实体的哪一部分

     BILOU Method/Schema
    
     | ------|--------------------|
     | BEGIN | The first token    |
     | ------|--------------------| 
     | IN    | An inner token     |
     | ------|--------------------|
     | LAST  | The final token    |
     | ------|--------------------|
     | Unit  | A single-token     |
     | ------|--------------------|
     | Out   | A non-entity token |
     | ------|--------------------|
    
    贝欧斯

    更复杂的注释方法区分命名实体的结尾和单个实体。这种方法称为Begin、INDER、EXTER、End和Single的生物等效性


    IOB(例如CoNLL 2003)

    IOB(或BIO)代表开始、内部和外部。用O标记的单词在命名实体之外


    有关更多详细信息,请点击以下链接

        URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)
    
        URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf
    

    我觉得情况就是这样。这似乎是一个奇怪的变化,因为完全相同的信息可以只通过生物标签进行交流。我想切换到BILOU是为了提高ML算法的性能。没错,但是BILOU边界将是隐式的。您还可以争辩说,只使用一个标记也同样有效。通常,额外的标签在分类后为解释有问题的边缘情况提供更有用的信息。仅使用单个“非输出”标签,即仅(i)nside和(O)utside,不足以区分后续实体,例如
    no(foo-bar)(baz)no
    =
    O
    =
    no(foo-bar-baz)否
    您能在“我还看到人们引用了另一个标签”上添加引用吗?
     BILOU Method/Schema
    
     | ------|--------------------|
     | BEGIN | The first token    |
     | ------|--------------------| 
     | IN    | An inner token     |
     | ------|--------------------|
     | LAST  | The final token    |
     | ------|--------------------|
     | Unit  | A single-token     |
     | ------|--------------------|
     | Out   | A non-entity token |
     | ------|--------------------|
    
        URL : https://en.wikipedia.org/wiki/Inside%E2%80%93outside%E2%80%93beginning_(tagging)
    
        URL :https://towardsdatascience.com/deep-learning-for-ner-1-public-datasets-and-annotation-methods-8b1ad5e98caf