Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/tensorflow/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Nlp 向SpaCy添加自定义实体时出现问题';斯内尔 我在en_core_web_lg中添加了一个名为“orgName”的新实体,使用 我所有的训练数据(26k个句子)都标有“orgName” 为了解决灾难性的遗忘问题,我在那26k个原始句子上运行了en_core_web_lg,并添加了ORG、PROD、FAC等实体作为标签,而不是面对冲突的实体,我创建了副本。 因此,对于一个标有“orgName”的句子a,我创建了一个重复的A2,其中包含ORG、PROD、FAC等,最后有大约52k个句子 我使用100次迭代进行训练_Nlp_Spacy_Named Entity Recognition - Fatal编程技术网

Nlp 向SpaCy添加自定义实体时出现问题';斯内尔 我在en_core_web_lg中添加了一个名为“orgName”的新实体,使用 我所有的训练数据(26k个句子)都标有“orgName” 为了解决灾难性的遗忘问题,我在那26k个原始句子上运行了en_core_web_lg,并添加了ORG、PROD、FAC等实体作为标签,而不是面对冲突的实体,我创建了副本。 因此,对于一个标有“orgName”的句子a,我创建了一个重复的A2,其中包含ORG、PROD、FAC等,最后有大约52k个句子 我使用100次迭代进行训练

Nlp 向SpaCy添加自定义实体时出现问题';斯内尔 我在en_core_web_lg中添加了一个名为“orgName”的新实体,使用 我所有的训练数据(26k个句子)都标有“orgName” 为了解决灾难性的遗忘问题,我在那26k个原始句子上运行了en_core_web_lg,并添加了ORG、PROD、FAC等实体作为标签,而不是面对冲突的实体,我创建了副本。 因此,对于一个标有“orgName”的句子a,我创建了一个重复的A2,其中包含ORG、PROD、FAC等,最后有大约52k个句子 我使用100次迭代进行训练,nlp,spacy,named-entity-recognition,Nlp,Spacy,Named Entity Recognition,现在的问题是,即使在训练句子上测试模型,它也不会显示ORG、PROD、FAC等,而只显示“orgName” 你认为问题出在哪里?原则上,你试图解决灾难性遗忘问题的方法,通过重新训练它的旧预测,对我来说似乎是一个很好的方法 但是,如果您有相同句子的重复版本,但注释不同,并将其提供给NER分类器,则可能会混淆模型。原因是,它不仅关注积极的例子,而且明确地将未注释的单词视为消极的情况 所以,如果你有“鲍勃住在伦敦”,而你只注释了“伦敦”,那么它会认为鲍勃肯定不是一个疯子。如果你有第二句话,只注释Bob

现在的问题是,即使在训练句子上测试模型,它也不会显示ORG、PROD、FAC等,而只显示“orgName”


你认为问题出在哪里?

原则上,你试图解决灾难性遗忘问题的方法,通过重新训练它的旧预测,对我来说似乎是一个很好的方法

但是,如果您有相同句子的重复版本,但注释不同,并将其提供给NER分类器,则可能会混淆模型。原因是,它不仅关注积极的例子,而且明确地将未注释的单词视为消极的情况

所以,如果你有“鲍勃住在伦敦”,而你只注释了“伦敦”,那么它会认为鲍勃肯定不是一个疯子。如果你有第二句话,只注释Bob,它将“忘记”伦敦是一个NE,因为现在它没有这样注释。所以一致性真的很重要

我建议实施更高级的算法来解决冲突。 一种选择是始终只获取带有最长
Span
的注释实体。但如果跨距通常完全相同,则可能需要重新考虑标签方案。哪些实体碰撞最频繁?我会假设ORG和OrgName?你真的需要组织吗?也许两者可以“合并”为同一实体