Nlp 清理文本后,在命名实体识别任务中保持对齐

Nlp 清理文本后,在命名实体识别任务中保持对齐,nlp,text-mining,data-cleaning,ner,brat,Nlp,Text Mining,Data Cleaning,Ner,Brat,我正在进行命名实体识别(NER)任务,实体以BRAT格式(.txt+.ann)进行注释。在使用我的模型之前,我已经实现了一些正则表达式来清理文本,但是如果我修改文本,我必须对齐实体的注释偏移量。这项任务相对简单,之后,我可以使用NLP模型对不同的实体类进行分类。但是,一旦获得模型的分类,我需要重新对齐原始文本中已识别的实体,即将已清理文本的偏移量更改为使用正则表达式之前的偏移量。有没有办法在清理文本后跟踪原始偏移量?您能在预处理前后发布一个数据示例吗?如果您可以编辑用于预处理的代码,这也会有所帮

我正在进行命名实体识别(NER)任务,实体以BRAT格式(.txt+.ann)进行注释。在使用我的模型之前,我已经实现了一些正则表达式来清理文本,但是如果我修改文本,我必须对齐实体的注释偏移量。这项任务相对简单,之后,我可以使用NLP模型对不同的实体类进行分类。但是,一旦获得模型的分类,我需要重新对齐原始文本中已识别的实体,即将已清理文本的偏移量更改为使用正则表达式之前的偏移量。有没有办法在清理文本后跟踪原始偏移量?

您能在预处理前后发布一个数据示例吗?如果您可以编辑用于预处理的代码,这也会有所帮助。如果没有关于数据或代码的任何信息,就不可能知道应该应用多少调整。例如:我有一句话“这是模型”和“模型”一词的注释,偏移量为11-15。作为预处理,我有以下简单的正则表达式,它们将[s]替换为[is],将[this]替换为[it],因此句子是“it is the model”。现在,单词“model”在10-14偏移中。如果NLP系统对单词“the”进行分类,它位于清理文本中的位置6-8,我如何恢复原始文本中的位置(即7-9)?听起来你可以通过简单的计算来实现这一点。减去要删除的字符串的长度,然后添加要替换已删除字符串的字符串的长度。