Stanford nlp 斯坦福NER CRF实施是否在培训阶段使用句子?

Stanford nlp 斯坦福NER CRF实施是否在培训阶段使用句子?,stanford-nlp,Stanford Nlp,我是CRF的新手,我的一些术语可能会有偏差,所以请容忍我。我假设斯坦福NER实现了一个线性链CRF 设x为单词序列,y为相应标记序列。以x为例,以y为标签。x的分量x_i是一个词。y的分量y_i是一个标记 在培训模型时,我们为其提供如下内容: James PERSON lives O in O Chicago LOCATION . O Coffee O in O Trieste LOCATION is O great O

我是CRF的新手,我的一些术语可能会有偏差,所以请容忍我。我假设斯坦福NER实现了一个线性链CRF

设x为单词序列,y为相应标记序列。以x为例,以y为标签。x的分量x_i是一个词。y的分量y_i是一个标记

  • 在培训模型时,我们为其提供如下内容:

    James    PERSON
    lives    O
    in       O
    Chicago  LOCATION
    .        O
    Coffee   O
    in       O
    Trieste  LOCATION
    is       O
    great    O
    .        O 
    
    模型是否使用单个句子作为例子?使用上述数据就是一个例子:?这是否意味着特征函数不能依赖于前面句子中的单词

  • 如果确实如此,那么模型如何确保每个示例都是一个句子?它是否执行任何句子边界检测?可以让它看一批4个句子吗


  • 提前感谢:)

    两条换行符被视为示例的边界。您的示例可以是从短语到整个文档的任何内容。举个例子,如果你想用两句话作为例子:

    James PERSON lives O in O Chicago LOCATION . O Coffee O in O Trieste LOCATION is O great O . O 詹姆斯人 生活 伊诺 芝加哥位置 . O 咖啡 伊诺 的里雅斯特位置 是O吗 伟大的O . O
    两条换行线被视为示例的边界。您的示例可以是从短语到整个文档的任何内容。举个例子,如果你想用两句话作为例子:

    James PERSON lives O in O Chicago LOCATION . O Coffee O in O Trieste LOCATION is O great O . O 詹姆斯人 生活 伊诺 芝加哥位置 . O 咖啡 伊诺 的里雅斯特位置 是O吗 伟大的O . O
    两条换行线被视为示例的边界。您的示例可以是从短语到整个文档的任何内容。举个例子,如果你想用两句话作为例子:

    James PERSON lives O in O Chicago LOCATION . O Coffee O in O Trieste LOCATION is O great O . O 詹姆斯人 生活 伊诺 芝加哥位置 . O 咖啡 伊诺 的里雅斯特位置 是O吗 伟大的O . O
    两条换行线被视为示例的边界。您的示例可以是从短语到整个文档的任何内容。举个例子,如果你想用两句话作为例子:

    James PERSON lives O in O Chicago LOCATION . O Coffee O in O Trieste LOCATION is O great O . O 詹姆斯人 生活 伊诺 芝加哥位置 . O 咖啡 伊诺 的里雅斯特位置 是O吗 伟大的O . O
    与使用整个文档相比,拆分每个句子的文本是否有任何优势?这取决于您是否认为您使用的NER标记在句子的开头或结尾更容易预测。对于通常的NER任务,这没有太大的区别——性能可能会提高1-2%。但是,如果你的句子没有清晰地分割,那么最好以文档为例。与使用整个文档相比,分割每个句子的文本是否有任何优势?取决于你是否认为你使用的NER标记在句子的开头或结尾时更可预测。对于通常的NER任务,这没有太大的区别——性能可能会提高1-2%。但是,如果你的句子没有清晰地分割,那么最好以文档为例。与使用整个文档相比,分割每个句子的文本是否有任何优势?取决于你是否认为你使用的NER标记在句子的开头或结尾时更可预测。对于通常的NER任务,这没有太大的区别——性能可能会提高1-2%。但是,如果你的句子没有清晰地分割,那么最好以文档为例。与使用整个文档相比,分割每个句子的文本是否有任何优势?取决于你是否认为你使用的NER标记在句子的开头或结尾时更可预测。对于通常的NER任务,这没有太大的区别——性能可能会提高1-2%。然而,如果你的句子没有清晰地分开,那么最好以文档为例。