Join kylin是否更新联接表上的聚合

Join kylin是否更新联接表上的聚合,join,druid,kylin,Join,Druid,Kylin,我们有3张每天更新的表格。在其中一个查询中,这3个表被联接,最终联接的表具有timestamp列。最终联接表用于计算各种聚合。此查询每天运行,因此每天都对整个数据(不是增量数据)执行连接,并计算聚合 问题是这可以用麒麟、德鲁伊或其他方法来优化吗?由于3个表每天更新,理想情况下,只有这一部分(增量)应以某种智能方式与其余数据连接,并且应在增量基础上计算/更新聚合。我相信这也会加快性能。请详细说明您的问题。有很多事情是不清楚的:1。那些桌子在哪里?2.为什么你认为德鲁伊或麒麟会有帮助?例如,德鲁伊根

我们有3张每天更新的表格。在其中一个查询中,这3个表被联接,最终联接的表具有timestamp列。最终联接表用于计算各种聚合。此查询每天运行,因此每天都对整个数据(不是增量数据)执行连接,并计算聚合


问题是这可以用麒麟、德鲁伊或其他方法来优化吗?由于3个表每天更新,理想情况下,只有这一部分(增量)应以某种智能方式与其余数据连接,并且应在增量基础上计算/更新聚合。我相信这也会加快性能。

请详细说明您的问题。有很多事情是不清楚的:1。那些桌子在哪里?2.为什么你认为德鲁伊或麒麟会有帮助?例如,德鲁伊根本不支持连接。3.你是在问数据建模还是一个特定的数据库功能?嗨,阿泰姆,我不确定德鲁伊或麒麟是否会在这方面有所帮助。我主要关注的是是否有可能在增量数据上计算联接——是否有任何工具支持这一点,或者我是否可以为此开发任何逻辑。正如我所说的,3个基本表(比如A、B、C)是数据仓库表,它们每天都被加载/附加。其中一个表包含时间戳列(比如A0)。当我连接3个表(A、B、C)时,让我们假设我得到的最终表为(X)。然后(X)用于计算各种聚合,这些聚合会反馈到报告中。我认为每天都会执行此连接操作,这是不需要的。比如我的基本表(A、B、C)包含1年的历史记录。在这种情况下,我可以加入A、B、C,获得1年的数据,并创建一个新表X。现在,当增量数据(下一天的数据)进入A、B、C时,我需要更新X。更新X时,我不想(重新)在整个1年+1天的数据上计算联接。但是做一些智能的事情,并以这样的方式更新X,使其反映1年+1天的联接数据。这可能吗?嗨,我知道了。如果您总是只将最新数据联接到最新数据,那么您就有可能自己实现增量联接。假设您有表ABC_joined.获取到A、B、C的最新数据,并将其放入表A\u latest、B\u latest、C\u latest中。将它们连接起来,然后将结果作为指定时间段内的新分区添加到ABC\u joined中。它将仅在支持分区替换的仓库中连接(BigQuery、Hive)如果您总是将最新数据合并在一起,而从不将最新数据与历史数据合并在一起