sparkjava中的内部连接
我正在尝试连接两个文件,每个10 GB,并使用内部连接。在我的集群中有3个工作节点 这是我的配置sparkjava中的内部连接,java,apache-spark,Java,Apache Spark,我正在尝试连接两个文件,每个10 GB,并使用内部连接。在我的集群中有3个工作节点 这是我的配置 Driver Memory: 5G Executor Memory: 15 G Cores/Executor: 1 spark.cores.max: 9 这两个文件都是基于ID列连接的。每个文件中有1000万条记录 这需要无尽的时间 有人可以提出建议吗?您可以尝试以下选项: 重新划分数据 如果存在,请修复 设置spark.sql.shuffle.partitions(否则默认情况下将创建分区)
Driver Memory: 5G
Executor Memory: 15 G
Cores/Executor: 1
spark.cores.max: 9
这两个文件都是基于ID列连接的。每个文件中有1000万条记录
这需要无尽的时间
有人可以提出建议吗?您可以尝试以下选项:
spark.sql.shuffle.partitions
(否则默认情况下将创建分区)
Driver Memory: 2G
Executor Memory: 7G
cores: 4