Nlp 如何在Stanford NER中生成和使用特征

Nlp 如何在Stanford NER中生成和使用特征,nlp,stanford-nlp,Nlp,Stanford Nlp,以以下两个功能为例: 及 问题: 使用第一个功能函数,我们需要像pw='in'w='Berlin'c='LOCATION'这样的东西,它可能会得到一个高权重,而更改c='PERSON'会得到一个低/负权重。问题是,w和pw是如何挑选的?它们是人工选择的,是从训练集中标记词的邻近区域中提取的,还是从所有可能的词集中提取的?那么是否考虑了每个组合pw,w 当在训练阶段使用第二个特征函数时,前向-后向算法中的矩阵变成N^3,其中N是类数。还是我遗漏了什么 提前谢谢你:) 斯坦福NER使用CRF序列模型

以以下两个功能为例:

问题:

  • 使用第一个功能函数,我们需要像pw='in'w='Berlin'c='LOCATION'这样的东西,它可能会得到一个高权重,而更改c='PERSON'会得到一个低/负权重。问题是,wpw是如何挑选的?它们是人工选择的,是从训练集中标记词的邻近区域中提取的,还是从所有可能的词集中提取的?那么是否考虑了每个组合pw,w

  • 当在训练阶段使用第二个特征函数时,前向-后向算法中的矩阵变成N^3,其中N是类数。还是我遗漏了什么


  • 提前谢谢你:)

    斯坦福NER使用CRF序列模型。 1.pw和w都是在训练中看到的前一对和当前的单词。
    2.在解码过程中,如果我们有特征模板PC、NC、C,那么为了找到最佳的序列,它必须考虑N^ 3可能的类组合(对于每个令牌和周围令牌)。默认模型使用pc,c,并考虑N^2个组合。

    斯坦福NER使用CRF序列模型。 1.pw和w都是在训练中看到的前一对和当前的单词。 2.在解码过程中,如果我们有特征模板PC、NC、C,那么为了找到最佳的序列,它必须考虑N^ 3可能的类组合(对于每个令牌和周围令牌)。默认模型使用pc、c并考虑N^2个组合

    pw, w, c
    
    pc, nc, c