用于人名的Java命名实体识别库“;“零件”;

用于人名的Java命名实体识别库“;“零件”;,java,named-entity-recognition,Java,Named Entity Recognition,我当前的项目需要提高客户详细信息的数据质量 我们遇到的一个问题是,客户姓名的首名、中间名和姓氏都有单独的数据捕获输入字段,但在许多情况下,姓名的每个部分都输入错误 我们需要清理我们持有的数据 此数据质量问题会影响我们与客户的通信,因为我们不知道他们的名字、中间名和姓氏。我们使用不恰当的称呼冒犯了一些客户 我们需要一个命名实体识别库,它不仅可以检测人名,还可以检测首、中、姓氏 使这项数据质量任务更加困难的是,我们拥有近1亿客户,我们的客户群遍布全球,因此我们需要能够识别第一、第二和姓氏,例如名字、

我当前的项目需要提高客户详细信息的数据质量

我们遇到的一个问题是,客户姓名的首名、中间名和姓氏都有单独的数据捕获输入字段,但在许多情况下,姓名的每个部分都输入错误

我们需要清理我们持有的数据

此数据质量问题会影响我们与客户的通信,因为我们不知道他们的名字、中间名和姓氏。我们使用不恰当的称呼冒犯了一些客户

我们需要一个命名实体识别库,它不仅可以检测人名,还可以检测首、中、姓氏

使这项数据质量任务更加困难的是,我们拥有近1亿客户,我们的客户群遍布全球,因此我们需要能够识别第一、第二和姓氏,例如名字、主名和零件的不同顺序。有帮助的是,我们还了解客户的民族性

是否存在特定于人名部分的命名实体识别

我意识到“完美”的解决方案是不可能的,但我相信我可以改善我们目前的数据质量

我刚刚提到了我最熟悉的名字结构——第一、中间和姓氏,但我明白以下是我面临的例子

In many parts of the world, parts of names are derived from titles, locations, genealogical information, caste, religious references, and so on. Here are a few examples:

    the Indian name Kogaddu Birappa Timappa Nair follows the order villageName-fathersName-givenName-lastName.
    the Rajasthani name Aditya Pratap Singh Chauhan is composed of givenName-fathersName-surname-casteName.

    in another part of India the name Madurai Mani Iyer represents townName-givenName-casteName.

    the Arabic Abu Karim Muhammad al-Jamil ibn Nidal ibn Abdulaziz al-Filistini translates as "Father of Karim, Muhammad (given name), The beautiful, Son of Nidal, Son of Abdulaziz, the Palestinian". Karim is Muhammad's first-born son.

有一种简单、通用的解决方案,但公司似乎出人意料地不愿意采用:

当且仅当通信确实来自专门为接收者准备通信的人时,才包括问候语。在这种情况下,关注接受者的一部分是考虑到接受者的文化,写出正确的称呼语


如果您是使用数据库中的名称生成通信的计算机,请诚实地说明您正在做什么。只要以任何形式显示提供给您的名称即可。不要试图用它来构造一个正式的称呼语。不要以任何方式改变它。显然是计算机生成的,但试图假装个人注意力的通信看起来很愚蠢,即使它们不足以引起实际的麻烦。

在世界范围的数据库中,你需要与名字不跟在第一、中间、后面的人打交道,姓氏模式。此外,在任何语言或民族中,姓氏可能是与该语言中任何普通名字匹配的单词,这种情况也并不少见。约翰·杰克。而且很可能订单无法保证。为了有比没有更好的东西,我会根据特定语言/国籍的名字数据库,实施一些最佳猜测启发法,包括流行度,通常作为一些公共报告提供。为了给出两个极端,考虑和考虑这个W3C文章:对于王室和VIP的特殊情况,我们一般有一个特定的数据质量部门来纠正这些情况,作为紧急事项。然而,我们不能对所有1亿客户都使用这种方法。我的公司是一家大型金融机构,我们的“蜗牛邮件”每月打印流程定期发送3000万封信件,敬礼必须在场且正确;但是美好的理想并没有从大规模生产的事实到敬礼的需要的逻辑。如果有什么区别的话,批量生产越大,任何个性化的尝试看起来就越可笑。这不是同一封信的批量生产,我的组织有法律义务通知其客户T&C对其个人财务协议的变更。产品包括养老金、抵押贷款、保险等。这些信件必须有某种“语调”,某种正式和商业性的东西。@Hector作为一名投资者,我经常从管理我大部分账户的大银行和管理更多账户的股票经纪人处收到T&C和类似信件。我向你保证,我非常清楚,这些企业正在发送数千万封信,而对“语气”一点也不感兴趣。