Database design 在数据库中合并两个数据源

Database design 在数据库中合并两个数据源,database-design,Database Design,我对合并两个数据源时的最佳实践有一个疑问,这两个数据源都有部分数据,偶尔也有矛盾的数据 我有两个不同的数据源,用于获取与特定房屋相关的变量(Zillow和Redfin) 这两个数据源之间存在差异。对于同一个房子,其中一个数据源可能缺少一个特定的变量,因此我从另一个数据源收集数据。有时两个来源可能都有变量,但同一家的值不同,这表明其中一个来源一定是错误的 我不确定存储数据和确保最终数据集具有最大覆盖率并最有可能包含正确数据的最佳实践是什么 我正在玩弄的一些想法是: 1) 将两者存储在单独的表中,然

我对合并两个数据源时的最佳实践有一个疑问,这两个数据源都有部分数据,偶尔也有矛盾的数据

我有两个不同的数据源,用于获取与特定房屋相关的变量(Zillow和Redfin)

这两个数据源之间存在差异。对于同一个房子,其中一个数据源可能缺少一个特定的变量,因此我从另一个数据源收集数据。有时两个来源可能都有变量,但同一家的值不同,这表明其中一个来源一定是错误的

我不确定存储数据和确保最终数据集具有最大覆盖率并最有可能包含正确数据的最佳实践是什么

我正在玩弄的一些想法是:

1) 将两者存储在单独的表中,然后合并到第三个表中,该表包含我从基础数据创建的统计信息。这种方法的问题是我需要一个更大的数据库

2) 插入一组数据,然后从另一个源获取相同的数据,并在相关的地方覆盖相同的表。这种方法的问题是,如果我想返回并更改我计算统计数据的方式,我可能不知道从哪个来源检索数据

是否存在组合不同数据集的最佳实践

我也不完全确定如何在同一房子的同一变量的冲突值之间做出选择。我应该一直坚持其中一个来源吗


任何帮助都将不胜感激

是的,只是我在sql工作。删除了标记,并按原样将每个输入存储在自己的表中。可能必须在不同的时间加载或重新加载输入源。然后,我将保留第三个表,其中包含合并和数据清理过程的结果。该程序可以参数化,以便提供不同的输出,并以不同的方式管理冲突。对于来自不同来源但具有不同值的数据。。。你必须决定哪个更具权威性,或者权衡一下,或者实现一些选择算法。。。对于不同的数据列,这很可能是不同的。