sparkjava中的内部连接

sparkjava中的内部连接,java,apache-spark,Java,Apache Spark,我正在尝试连接两个文件,每个10 GB,并使用内部连接。在我的集群中有3个工作节点 这是我的配置 Driver Memory: 5G Executor Memory: 15 G Cores/Executor: 1 spark.cores.max: 9 这两个文件都是基于ID列连接的。每个文件中有1000万条记录 这需要无尽的时间 有人可以提出建议吗?您可以尝试以下选项: 重新划分数据 如果存在,请修复 设置spark.sql.shuffle.partitions(否则默认情况下将创建分区)

我正在尝试连接两个文件,每个10 GB,并使用内部连接。在我的集群中有3个工作节点

这是我的配置

Driver Memory: 5G
Executor Memory: 15 G
Cores/Executor: 1
spark.cores.max: 9
这两个文件都是基于ID列连接的。每个文件中有1000万条记录

这需要无尽的时间


有人可以提出建议吗?

您可以尝试以下选项:

  • 重新划分数据

  • 如果存在,请修复

  • 设置
    spark.sql.shuffle.partitions
    (否则默认情况下将创建分区)

  • 更新Spark配置(考虑一个节点为-15G RAM) 和9芯

  • Driver Memory: 2G
    Executor Memory: 7G
    cores: 4