当为NLP手动标记语料库时，是否也有未标记的文本？_Nlp_Nltk_Stanford Nlp_Opennlp_Corpus

当为NLP手动标记语料库时，是否也有未标记的文本？

nlp stanford-nlp

当为NLP手动标记语料库时，是否也有未标记的文本？,nlp,nltk,stanford-nlp,opennlp,corpus,Nlp,Nltk,Stanford Nlp,Opennlp,Corpus,我正在做手工标记来训练我自己的NER 我是否必须在准备命名实体识别的句子中包含未标记的文本 <START:person> Olivier Grisel <END> is working on the <START:software> Stanbol <END> project . Olivier Grisel正在进行Stanbol项目。或者我可以省略像这样未标记的部分吗 <START:person> Olivier Grisel

我正在做手工标记来训练我自己的NER 我是否必须在准备命名实体识别的句子中包含未标记的文本

<START:person> Olivier Grisel <END> is working on the <START:software> Stanbol <END> project .

Olivier Grisel正在进行Stanbol项目。

或者我可以省略像这样未标记的部分吗

<START:person> Olivier Grisel <END>
<START:software> Stanbol <END>

奥利维尔·格里塞尔斯坦布尔 PS:

谢谢你的回答。我试图省略未标记的部分，在这种情况下，OpenNLP将每一行标记为一个实体，因此它不起作用。正如答案所解释的，未标记的部分是必要的。

这取决于您计划如何使用语料库。如果省略未标记的部分，将丢失文档中实体的位置

在经典命名实体识别中，还需要实体的精确位置。在您的系统中，您可能会有一些规则、字典、统计标记器，并且您会检查文本中的每个标记，检查它是否是命名实体的一部分（NE识别）以及它的类型（NE分类）

如果您不知道该实体在手动注释的语料库中出现在何处，则不清楚如何使用它。如果您需要语料库来比较实体列表（由您的系统创建并存在于语料库中），那么您可能不需要位置，但您无法检查实体出现的位置

例如，如果您有文档：

“我知道巴拉克·奥巴马是总统，但谁是米歇尔·奥巴马？巴拉克·奥巴马绝对是总统。”

你的系统得到一次“巴拉克·奥巴马”，而你的语料库得到了“巴拉克·奥巴马”x2，你不知道你得到了哪一个。此外，您可以将奥巴马作为命名实体

简而言之，我不会这么做：）

这取决于你打算如何使用语料库。如果省略未标记的部分，将丢失文档中实体的位置

例如，如果您有文档：

“我知道巴拉克·奥巴马是总统，但谁是米歇尔·奥巴马？巴拉克·奥巴马绝对是总统。”

你的系统得到一次“巴拉克·奥巴马”，而你的语料库得到了“巴拉克·奥巴马”x2，你不知道你得到了哪一个。此外，您可以将奥巴马作为命名实体

简言之，我不会这么做：）

如果你在做手动标记来训练你自己的NER模型（你的问题不是100%清楚），你应该包括你希望稍后标记的相同类型的数据，很可能是完整的句子。默认模型功能（请参见）包括当前正在考虑的标记左右两侧的标记窗口，因此您希望标记的实体显示在其正常上下文中。您还希望模型了解哪些单词不应标记为实体，因此它们也需要出现在培训数据的上下文中

请参阅相关问题：

如果您正在进行手动标记以训练您自己的NER模型（您的问题并不是100%清楚），您应该包含您希望稍后标记的相同类型的数据，很可能是完整的句子。默认模型功能（请参见）包括当前正在考虑的标记左右两侧的标记窗口，因此您希望标记的实体显示在其正常上下文中。您还希望模型了解哪些单词不应标记为实体，因此它们也需要出现在培训数据的上下文中

见相关问题：