Nlp 机构详情识别

Nlp 机构详情识别,nlp,Nlp,我正在尝试编写一个公司的详细信息解析器,它可以将如下文本拆分为其组成部分: 泰雷兹陆地和联合系统 完全签名管理 伍基洞道 井 萨默塞特 BA5 1AA 电话:+44(0)1749 682384 传真:+44(0)1749 682235 我遇到的问题是,我如何判断“完全签名管理”实际上不是地址的一部分?通常情况下,公司会显示其名称“泰雷兹土地和联合系统”,2号线通常是地址的第一部分 在上面的例子中,公司名称后面跟着一个非地址部分,是否有区别 谢谢您可以根据出现的单词计算AddressDescrip

我正在尝试编写一个公司的详细信息解析器,它可以将如下文本拆分为其组成部分:

泰雷兹陆地和联合系统

完全签名管理

伍基洞道

萨默塞特

BA5 1AA

电话:+44(0)1749 682384

传真:+44(0)1749 682235

我遇到的问题是,我如何判断“完全签名管理”实际上不是地址的一部分?通常情况下,公司会显示其名称“泰雷兹土地和联合系统”,2号线通常是地址的第一部分

在上面的例子中,公司名称后面跟着一个非地址部分,是否有区别


谢谢

您可以根据出现的单词计算AddressDescription的概率。在这个例子中,很明显,“road”行比“management”行更可能是地址的一部分

如果非地址部分仅出现在公司名称之后,那么这应该可以很好地工作。如果有可能在文本的某个地方找到非地址部分,那么在没有进一步信息的情况下将它们分开几乎是不可能的

也许你想看看我昨天问的一个问题

编辑:您可以根据以前分类的地址部分(您确定的地址部分;)创建统计模型