当为NLP手动标记语料库时,是否也有未标记的文本?

当为NLP手动标记语料库时,是否也有未标记的文本?,nlp,nltk,stanford-nlp,opennlp,corpus,Nlp,Nltk,Stanford Nlp,Opennlp,Corpus,我正在做手工标记来训练我自己的NER 我是否必须在准备命名实体识别的句子中包含未标记的文本 <START:person> Olivier Grisel <END> is working on the <START:software> Stanbol <END> project . Olivier Grisel正在进行Stanbol项目。 或者我可以省略像这样未标记的部分吗 <START:person> Olivier Grisel

我正在做手工标记来训练我自己的NER 我是否必须在准备命名实体识别的句子中包含未标记的文本

<START:person> Olivier Grisel <END> is working on the <START:software> Stanbol <END> project .
Olivier Grisel正在进行Stanbol项目。
或者我可以省略像这样未标记的部分吗

<START:person> Olivier Grisel <END>
<START:software> Stanbol <END>
奥利维尔·格里塞尔 斯坦布尔 PS:
谢谢你的回答。我试图省略未标记的部分,在这种情况下,OpenNLP将每一行标记为一个实体,因此它不起作用。正如答案所解释的,未标记的部分是必要的。

这取决于您计划如何使用语料库。如果省略未标记的部分,将丢失文档中实体的位置

在经典命名实体识别中,还需要实体的精确位置。在您的系统中,您可能会有一些规则、字典、统计标记器,并且您会检查文本中的每个标记,检查它是否是命名实体的一部分(NE识别)以及它的类型(NE分类)

如果您不知道该实体在手动注释的语料库中出现在何处,则不清楚如何使用它。如果您需要语料库来比较实体列表(由您的系统创建并存在于语料库中),那么您可能不需要位置,但您无法检查实体出现的位置

例如,如果您有文档:

“我知道巴拉克·奥巴马是总统,但谁是米歇尔·奥巴马? 巴拉克·奥巴马绝对是总统。”

你的系统得到一次“巴拉克·奥巴马”,而你的语料库得到了“巴拉克·奥巴马”x2,你不知道你得到了哪一个。此外,您可以将奥巴马作为命名实体


简而言之,我不会这么做:)

这取决于你打算如何使用语料库。如果省略未标记的部分,将丢失文档中实体的位置

在经典命名实体识别中,还需要实体的精确位置。在您的系统中,您可能会有一些规则、字典、统计标记器,并且您会检查文本中的每个标记,检查它是否是命名实体的一部分(NE识别)以及它的类型(NE分类)

如果您不知道该实体在手动注释的语料库中出现在何处,则不清楚如何使用它。如果您需要语料库来比较实体列表(由您的系统创建并存在于语料库中),那么您可能不需要位置,但您无法检查实体出现的位置

例如,如果您有文档:

“我知道巴拉克·奥巴马是总统,但谁是米歇尔·奥巴马? 巴拉克·奥巴马绝对是总统。”

你的系统得到一次“巴拉克·奥巴马”,而你的语料库得到了“巴拉克·奥巴马”x2,你不知道你得到了哪一个。此外,您可以将奥巴马作为命名实体


简言之,我不会这么做:)

如果你在做手动标记来训练你自己的NER模型(你的问题不是100%清楚),你应该包括你希望稍后标记的相同类型的数据,很可能是完整的句子。默认模型功能(请参见)包括当前正在考虑的标记左右两侧的标记窗口,因此您希望标记的实体显示在其正常上下文中。您还希望模型了解哪些单词不应标记为实体,因此它们也需要出现在培训数据的上下文中


请参阅相关问题:

如果您正在进行手动标记以训练您自己的NER模型(您的问题并不是100%清楚),您应该包含您希望稍后标记的相同类型的数据,很可能是完整的句子。默认模型功能(请参见)包括当前正在考虑的标记左右两侧的标记窗口,因此您希望标记的实体显示在其正常上下文中。您还希望模型了解哪些单词不应标记为实体,因此它们也需要出现在培训数据的上下文中

见相关问题: