Geolocation 如何标准化用户插入的城市名称

Geolocation 如何标准化用户插入的城市名称,geolocation,etl,data-warehouse,standardization,Geolocation,Etl,Data Warehouse,Standardization,我需要编写一个小型ETL管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库),以便对数据执行一些分析 在这些数据中,我需要清理和整理城市名称。城市由国际用户手动插入,通常对于单个城市,我可以有多个名称(例如伦敦或伦敦)。 在我的源数据库中,我不仅有大城市,还有小村庄 如果我不将城市名称标准化,我们的分析可能是荒谬的 在我的目标数据库中,标准化城市的最佳做法是什么?你有什么想法或建议我可以接受吗 谢谢唯一可靠的方法是使用商业地址验证软件,最好在创建数据时在源系统中使用,但可以将其集成到

我需要编写一个小型ETL管道,因为我需要将一些数据从源数据库移动到目标数据库(数据仓库),以便对数据执行一些分析

在这些数据中,我需要清理和整理城市名称。城市由国际用户手动插入,通常对于单个城市,我可以有多个名称(例如伦敦或伦敦)。 在我的源数据库中,我不仅有大城市,还有小村庄

如果我不将城市名称标准化,我们的分析可能是荒谬的

在我的目标数据库中,标准化城市的最佳做法是什么?你有什么想法或建议我可以接受吗


谢谢

唯一可靠的方法是使用商业地址验证软件,最好在创建数据时在源系统中使用,但可以将其集成到数据管道过程中

假设您负担不起/无法证明使用商业软件的合理性,唯一的其他解决方案是创建您自己的转换表,即保存输入的值以及您希望转换为的值的表


虽然您可以基于历史数据构建此表,但表中始终会有不存在的新值,因此您需要一个过程来识别这些值,将新记录添加到翻译数据中,然后修复受影响的记录。您还需要接受,在每次数据加载后的一段时间内,您的仓库中会有未清理的数据

请确保您只转换城市名称,而不是修复坏数据。数据仓库永远不应该修复坏数据,它应该只显示需要在源代码中修复的数据。。。也许我们还必须改进城市的人工输入