sparkjava中的内部连接_Java_Apache Spark

sparkjava中的内部连接

java apache-spark

sparkjava中的内部连接,java,apache-spark,Java,Apache Spark,我正在尝试连接两个文件，每个10 GB，并使用内部连接。在我的集群中有3个工作节点这是我的配置 Driver Memory: 5G Executor Memory: 15 G Cores/Executor: 1 spark.cores.max: 9 这两个文件都是基于ID列连接的。每个文件中有1000万条记录这需要无尽的时间有人可以提出建议吗？您可以尝试以下选项：重新划分数据如果存在，请修复设置spark.sql.shuffle.partitions（否则默认情况下将创建分区）

我正在尝试连接两个文件，每个10 GB，并使用内部连接。在我的集群中有3个工作节点

这是我的配置

Driver Memory: 5G
Executor Memory: 15 G
Cores/Executor: 1
spark.cores.max: 9

这两个文件都是基于ID列连接的。每个文件中有1000万条记录

这需要无尽的时间

有人可以提出建议吗？

您可以尝试以下选项：

重新划分数据

如果存在，请修复

设置

spark.sql.shuffle.partitions

（否则默认情况下将创建分区）

更新Spark配置（考虑一个节点为-15G RAM）和9芯

Driver Memory: 2G
Executor Memory: 7G
cores: 4