我们希望在ApacheHive中实现星型模式。突出的一点是我们如何生成事实密钥

我们希望在ApacheHive中实现星型模式。突出的一点是我们如何生成事实密钥,hive,apache-pig,etl,data-warehouse,hiveql,Hive,Apache Pig,Etl,Data Warehouse,Hiveql,我们正在考虑将现有的oracle datamart及其相应的ETL作业替换为Apache平台。 在各种挑战中,我们看到一个突出的挑战是为日常负载维护事实键代理键(即维度表键)。具体来说,我们如何在保持数据分区的同时生成唯一密钥? 有没有人有过主要使用HIVE和PIG实现整个数据仓库的经验。 理想情况下,我们不希望使用任何其他etl工具,如talend等,您计划如何加载维度?这就是SK值的来源。Marek,虽然这是真的,但说事实表键和事实没有单独的键不是一回事,至少在我看到的实现中不是这样。无论如

我们正在考虑将现有的oracle datamart及其相应的ETL作业替换为Apache平台。 在各种挑战中,我们看到一个突出的挑战是为日常负载维护事实键代理键(即维度表键)。具体来说,我们如何在保持数据分区的同时生成唯一密钥? 有没有人有过主要使用HIVE和PIG实现整个数据仓库的经验。
理想情况下,我们不希望使用任何其他etl工具,如talend等,

您计划如何加载维度?这就是SK值的来源。Marek,虽然这是真的,但说事实表键和事实没有单独的键不是一回事,至少在我看到的实现中不是这样。无论如何,我不认为那会使人困惑。但我补充说这个问题也是为了澄清,我通常也在RDBMS实现中使用它们。它们很方便,但从技术上讲是多余的;用SKs制成的复合钥匙就足够了。如果你真的需要它们,考虑GUID(猪可以通过反射调用适当的java函数)或者用ZooKeor实现序列生成器。马立克,谢谢指针,我喜欢动物园管理员的想法。我不希望Pig出现任何同步问题。或者,如果GUI不适用,您可以使用Cassandra生成序列,如下所述