Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/ruby-on-rails/62.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/6/mongodb/12.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Ruby on rails 如何规范公司名称_Ruby On Rails_Mongodb_Fuzzy Comparison - Fatal编程技术网

Ruby on rails 如何规范公司名称

Ruby on rails 如何规范公司名称,ruby-on-rails,mongodb,fuzzy-comparison,Ruby On Rails,Mongodb,Fuzzy Comparison,我们有用户生成的各种不同的雇主名称。例如,人们输入或导入了: 谷歌 谷歌公司 谷歌公司 谷歌公司 对于一个数据库搜索,这看起来像是一个不同的公司在一起。我们已经改变了一些东西,将每个雇主映射为一个“标准化”的名称,但由于总共有70000个,手工操作变得很困难 是否有人对如何规范现有条目,以及如何维护我们对所有传入名称也这样做提出了建议?您可以做两件事来帮助: 当用户添加公司名称时,给他们一个自动完成框,以便他们在公司名称已经存在时获得建议。或者,在添加问题时,建议使用stackoverflow

我们有用户生成的各种不同的雇主名称。例如,人们输入或导入了:

谷歌
谷歌公司
谷歌公司
谷歌公司

对于一个数据库搜索,这看起来像是一个不同的公司在一起。我们已经改变了一些东西,将每个雇主映射为一个“标准化”的名称,但由于总共有70000个,手工操作变得很困难


是否有人对如何规范现有条目,以及如何维护我们对所有传入名称也这样做提出了建议?

您可以做两件事来帮助:

  • 当用户添加公司名称时,给他们一个自动完成框,以便他们在公司名称已经存在时获得建议。或者,在添加问题时,建议使用stackoverflow这样的现有问题

  • 在查询数据库时使用搜索工具,以便您可以总结所有变化。你可以在这里找到搜索宝石


我认为事后“规范化”它们既不容易也不准确。

另请参见我在这方面做了一些研究,并发现了一篇最近的论文,其中讨论了提取、发现(通过聚类)和规范化(通过增强的编辑距离计算)组织名称的方法。我们有一个自动完成框,但大部分数据都是从LinkedIn和Facebook等其他平台导入的,因此对这方面的控制较少。