Nlp 清理文本后，在命名实体识别任务中保持对齐_Nlp_Text Mining_Data Cleaning_Ner_Brat

Nlp 清理文本后，在命名实体识别任务中保持对齐

nlp

Nlp 清理文本后，在命名实体识别任务中保持对齐,nlp,text-mining,data-cleaning,ner,brat,Nlp,Text Mining,Data Cleaning,Ner,Brat,我正在进行命名实体识别（NER）任务，实体以BRAT格式（.txt+.ann）进行注释。在使用我的模型之前，我已经实现了一些正则表达式来清理文本，但是如果我修改文本，我必须对齐实体的注释偏移量。这项任务相对简单，之后，我可以使用NLP模型对不同的实体类进行分类。但是，一旦获得模型的分类，我需要重新对齐原始文本中已识别的实体，即将已清理文本的偏移量更改为使用正则表达式之前的偏移量。有没有办法在清理文本后跟踪原始偏移量？您能在预处理前后发布一个数据示例吗？如果您可以编辑用于预处理的代码，这也会有所帮

我正在进行命名实体识别（NER）任务，实体以BRAT格式（.txt+.ann）进行注释。在使用我的模型之前，我已经实现了一些正则表达式来清理文本，但是如果我修改文本，我必须对齐实体的注释偏移量。这项任务相对简单，之后，我可以使用NLP模型对不同的实体类进行分类。但是，一旦获得模型的分类，我需要重新对齐原始文本中已识别的实体，即将已清理文本的偏移量更改为使用正则表达式之前的偏移量。有没有办法在清理文本后跟踪原始偏移量？

您能在预处理前后发布一个数据示例吗？如果您可以编辑用于预处理的代码，这也会有所帮助。如果没有关于数据或代码的任何信息，就不可能知道应该应用多少调整。例如：我有一句话“这是模型”和“模型”一词的注释，偏移量为11-15。作为预处理，我有以下简单的正则表达式，它们将[s]替换为[is]，将[this]替换为[it]，因此句子是“it is the model”。现在，单词“model”在10-14偏移中。如果NLP系统对单词“the”进行分类，它位于清理文本中的位置6-8，我如何恢复原始文本中的位置（即7-9）？听起来你可以通过简单的计算来实现这一点。减去要删除的字符串的长度，然后添加要替换已删除字符串的字符串的长度。