Nlp 使用NLTK中的自定义文件/代码改进实体命名

Nlp 使用NLTK中的自定义文件/代码改进实体命名,nlp,nltk,Nlp,Nltk,在最近的一个项目中,我们一直在与NLTK库合作 主要对命名实体部分感兴趣 总的来说,我们使用NEChunkParser类得到了很好的结果。 然而,我们正试图找到一种方法,为客户提供我们自己的条款 没有成功 例如,我们有一个测试文档,其中我的名字(Shay)出现在 好几个地方。图书馆发现我是GPE,而我希望它能找到 我作为一个人 有没有办法提供某种自定义文件/ 代码,以便解析器能够将命名实体解释为 想要吗 谢谢 简单的解决方案是编译一个您知道被错误分类的实体列表,然后在后处理模块中过滤NEChun

在最近的一个项目中,我们一直在与NLTK库合作 主要对命名实体部分感兴趣

总的来说,我们使用NEChunkParser类得到了很好的结果。 然而,我们正试图找到一种方法,为客户提供我们自己的条款 没有成功

例如,我们有一个测试文档,其中我的名字(Shay)出现在 好几个地方。图书馆发现我是GPE,而我希望它能找到 我作为一个人

有没有办法提供某种自定义文件/ 代码,以便解析器能够将命名实体解释为 想要吗


谢谢

简单的解决方案是编译一个您知道被错误分类的实体列表,然后在后处理模块中过滤
NEChunkParser
输出,并用您想要的标记替换这些实体的标记


正确的解决方案是重新培训NE标记器。如果查看NLTK的示例,您将看到
NEChunkParser
基于MaxEnt分类器,即机器学习算法。您必须编译并注释一个语料库(dataset),它代表您想要处理的数据类型,然后在此语料库上重新训练NE标记器。(这很难,很耗时,而且可能很昂贵。)

嘿,谢伊,你在这方面有什么进展吗?我很想看看你有什么想法,因为我也遇到了类似的问题。