Dictionary 用于查找名字和姓氏变体的名称匹配词典

Dictionary 用于查找名字和姓氏变体的名称匹配词典,dictionary,name-matching,Dictionary,Name Matching,我有一个应用程序,将存储和跟踪访客。这些访问者由调度员(用户)在设置访问时根据需要在系统中创建。问题在于,大多数情况下,访客唯一重要的唯一标识符如下所示: 名字 姓 公司名称 同一个人存在重复记录的风险是固有的,调度程序可以输入新的访客记录,而不是在系统中搜索以该姓名存在的人 当我遇到有人以相同的名字进入一个访客时,我会显示一个警告对话框,其中有关于这个人可能是谁的各种建议,但即使这样也不够好 我可以输入“Jim Jones”,这个人可能在系统中以“James Jones”或“Jimmy J

我有一个应用程序,将存储和跟踪访客。这些访问者由调度员(用户)在设置访问时根据需要在系统中创建。问题在于,大多数情况下,访客唯一重要的唯一标识符如下所示:

  • 名字
  • 公司名称
同一个人存在重复记录的风险是固有的,调度程序可以输入新的访客记录,而不是在系统中搜索以该姓名存在的人

当我遇到有人以相同的名字进入一个访客时,我会显示一个警告对话框,其中有关于这个人可能是谁的各种建议,但即使这样也不够好

我可以输入“Jim Jones”,这个人可能在系统中以“James Jones”或“Jimmy Jones”的身份存在。我看到有名称识别软件包可用,但它们是昂贵的,肯定比我所寻找的更重

有谁知道在哪里可以找到一个免费的或开源的字典文件,我可以通过编程访问它来找到潜在的名字变体?软件或在线服务会很好,但即使只是一个数据转储或简单的文本文件也可以


我知道即使这样也不能防止重复的访客记录,我只是尽量将其保持在最低限度,因此这不是一个关键功能。

查看Moby项目(http://icon.shef.ac.uk/Moby/mwords.html)常用的名字和姓氏。您可以使用metaphone和soundex等工具对类似的名称进行预计算,并使用这些工具识别潜在的匹配项。你还提到了一些公司名称,因为它们可以由很多东西组成,所以管理起来有点困难,也许可以查看12个单词的清单(http://wordlist.sourceforge.net/)该软件包中提供的2+2列表提供了多个共享公共根的表单,这些表单可以与类似的拼写解决方案结合使用,以提供更好的结果。

我想从上面的设计说明中澄清一下,当我说调度器可以输入新的访问者记录来代替搜索系统时,我的意思是,这种行为是故意的。该用户群将被假定为具有最低限度的计算机技能,因此一个干净简单的手持流程是必要的。感谢发布,我将检查这些链接,并让你知道如何工作。澄清一下,我并不关心寻找公司。“公司”字段不是搜索字段,但它的显示可以唯一区分两个名字完全相同的访问者。嗯。。。当我下载Moby字典时,我很难弄清楚如何处理我解包的文件。自述没有任何帮助。莫比字典是一个开始,但不完全是我要找的。它有一组令人印象深刻的名字,但如果没有比较表,我真的做不了什么。我测试的变音和Soundex算法也不起作用,因为它们只会找到听起来相似的名字,这不是我想要的。如果我的搜索词是“威廉”,它应该能够搜索诸如“比尔”、“比利”、“威尔”、“威利”、“威利”等变体。。。有了这样一个列表,我可以很容易地写一个查询来查找名字变体列表中的所有访问者。看了一些其他链接到名字匹配标签的帖子,发现这个不是超级扩展,但总比没有好…将它加载到我的翻译数据集中。很好!!!我还发现它以csv文件的形式存在。我能够将这些加载到一个对象中并找到匹配项。我可能会尝试编写一个脚本,可以使用您提供的链接来填补我的csv中的漏洞,然后我应该有一个非常好的词典。谢谢你的帮助!