Apache spark Spark HashPartioner如何处理jdbc数据源？_Apache Spark_Skew

Apache spark Spark HashPartioner如何处理jdbc数据源？

apache-spark

Apache spark Spark HashPartioner如何处理jdbc数据源？,apache-spark,skew,Apache Spark,Skew,当我在两个jdbc表上执行联接操作时发生了什么，doc说spark2.2将启动2个阶段来读取表数据，1个阶段来执行联接，当在阶段1和阶段2之间进行混洗时，spark使用HashPartitioner对数据进行分区。但是spark将如何计算散列数？情况是，我没有在任何spark配置中设置任何列，结果表明spark存在服务器数据倾斜问题。这是我的spark配置：散列分区器使用连接键。它将散列，然后通过spark.sql.numPartitions修改连接键。如果您遇到dataskew问题，请

当我在两个jdbc表上执行联接操作时发生了什么，doc说spark2.2将启动2个阶段来读取表数据，1个阶段来执行联接，当在阶段1和阶段2之间进行混洗时，spark使用HashPartitioner对数据进行分区。但是spark将如何计算散列数？
情况是，我没有在任何spark配置中设置任何列，结果表明spark存在服务器数据倾斜问题。

这是我的spark配置：

散列分区器使用连接键。它将散列，然后通过spark.sql.numPartitions修改连接键。如果您遇到dataskew问题，请将倾斜的键过滤到单独的数据帧中。在歪斜键数据帧上执行广播连接（使用提示），然后在非歪斜键上执行常规连接。

的可能重复。