Nlp 使用NLTK中的自定义文件/代码改进实体命名_Nlp_Nltk

Nlp 使用NLTK中的自定义文件/代码改进实体命名

nlp

Nlp 使用NLTK中的自定义文件/代码改进实体命名,nlp,nltk,Nlp,Nltk,在最近的一个项目中，我们一直在与NLTK库合作主要对命名实体部分感兴趣总的来说，我们使用NEChunkParser类得到了很好的结果。然而，我们正试图找到一种方法，为客户提供我们自己的条款没有成功例如，我们有一个测试文档，其中我的名字（Shay）出现在好几个地方。图书馆发现我是GPE，而我希望它能找到我作为一个人有没有办法提供某种自定义文件/ 代码，以便解析器能够将命名实体解释为想要吗谢谢简单的解决方案是编译一个您知道被错误分类的实体列表，然后在后处理模块中过滤NEChun

在最近的一个项目中，我们一直在与NLTK库合作主要对命名实体部分感兴趣

总的来说，我们使用NEChunkParser类得到了很好的结果。然而，我们正试图找到一种方法，为客户提供我们自己的条款没有成功

例如，我们有一个测试文档，其中我的名字（Shay）出现在好几个地方。图书馆发现我是GPE，而我希望它能找到我作为一个人

有没有办法提供某种自定义文件/ 代码，以便解析器能够将命名实体解释为想要吗

谢谢

简单的解决方案是编译一个您知道被错误分类的实体列表，然后在后处理模块中过滤

NEChunkParser

输出，并用您想要的标记替换这些实体的标记

正确的解决方案是重新培训NE标记器。如果查看NLTK的示例，您将看到

NEChunkParser

基于MaxEnt分类器，即机器学习算法。您必须编译并注释一个语料库（dataset），它代表您想要处理的数据类型，然后在此语料库上重新训练NE标记器。（这很难，很耗时，而且可能很昂贵。）

嘿，谢伊，你在这方面有什么进展吗？我很想看看你有什么想法，因为我也遇到了类似的问题。