Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 用于聚合的盐,以防止倾斜_Apache Spark_Apache Spark Sql - Fatal编程技术网

Apache spark 用于聚合的盐,以防止倾斜

Apache spark 用于聚合的盐,以防止倾斜,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我目前正试图理解盐-ing的概念以对抗歪斜。不幸的是,我在Spark SQL中找不到足够的信息来帮助我理解聚合中的盐分概念(例如分组依据&窗口等) 到目前为止,我认为盐腌聚合需要2次通过。因此,我将下面的代码片段放在一起,以表示第一个过程。然而,我无法从那里开始。有人能帮我继续使用Spark SQL查询的几个例子吗 第一关: create temporary view salt1 as select cust, item, cast(rand() * 10 as int) as salt fr

我目前正试图理解
-ing的概念以对抗
歪斜
。不幸的是,我在Spark SQL中找不到足够的信息来帮助我理解聚合中的盐分概念(例如
分组依据
&
窗口
等)

到目前为止,我认为盐腌聚合需要2次通过。因此,我将下面的代码片段放在一起,以表示第一个过程。然而,我无法从那里开始。有人能帮我继续使用Spark SQL查询的几个例子吗

第一关:

create temporary view salt1 
as
select cust, item, cast(rand() * 10 as int) as salt
from tab1;

create temporary view salt2
as
select cust, item
from (select cust, 
             item, 
             row_number() over (partition by salt, cust order by purch) as row_num
     from salt1
     )
where row_num = 1;

谢谢你的帮助。

这有帮助吗?我读过这个问题。但是,我想知道如何通过SQL查询应用相同的方法。。