Apache spark 用于聚合的盐,以防止倾斜
我目前正试图理解Apache spark 用于聚合的盐,以防止倾斜,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我目前正试图理解盐-ing的概念以对抗歪斜。不幸的是,我在Spark SQL中找不到足够的信息来帮助我理解聚合中的盐分概念(例如分组依据&窗口等) 到目前为止,我认为盐腌聚合需要2次通过。因此,我将下面的代码片段放在一起,以表示第一个过程。然而,我无法从那里开始。有人能帮我继续使用Spark SQL查询的几个例子吗 第一关: create temporary view salt1 as select cust, item, cast(rand() * 10 as int) as salt fr
盐
-ing的概念以对抗歪斜
。不幸的是,我在Spark SQL中找不到足够的信息来帮助我理解聚合中的盐分概念(例如分组依据
&窗口
等)
到目前为止,我认为盐腌聚合需要2次通过。因此,我将下面的代码片段放在一起,以表示第一个过程。然而,我无法从那里开始。有人能帮我继续使用Spark SQL查询的几个例子吗
第一关:
create temporary view salt1
as
select cust, item, cast(rand() * 10 as int) as salt
from tab1;
create temporary view salt2
as
select cust, item
from (select cust,
item,
row_number() over (partition by salt, cust order by purch) as row_num
from salt1
)
where row_num = 1;
谢谢你的帮助。这有帮助吗?我读过这个问题。但是,我想知道如何通过SQL查询应用相同的方法。。