Apache spark CSV文件是分区和并行的吗?
我是Apache Spark的新手 我对spark有意见。如果有人知道如何解决这个问题,请告诉我 [环境] 独立模式集群:主节点和3个工作节点,分别有4个核心 [场景]Apache spark CSV文件是分区和并行的吗?,apache-spark,Apache Spark,我是Apache Spark的新手 我对spark有意见。如果有人知道如何解决这个问题,请告诉我 [环境] 独立模式集群:主节点和3个工作节点,分别有4个核心 [场景] 加载CSV文件并创建数据集。此时,数据集的分区号为1 数据集被重新分区为10 10个分区应该在3个工作节点上并行 [问题] 在上面的第3条中,我可以确认从执行日志创建了10个分区。 但是,所有10个分区仅在一个工作节点上处理 关于我的集群,我已经尝试了下面的SparkPi示例,其中包含10个分区,它们在3个工作节点上并行。 因
CSV文件是否分区并并行倍增?快速要点:执行者是spark中的关键,而不是节点。也就是说,您可以在一个节点上处理所有数据,但由于该节点上有多个可用的执行器,因此它仍然可以均匀分布并进行良好的处理。也就是说,shuffle在spark中是昂贵的。我的猜测是spark catalyst引擎可能决定在一个节点上处理所有数据,以避免将数据转移到其他节点的成本。您可以通过强制数据在其他节点上可用(即跨节点复制)或使用更大的数据集来测试这一点。您好r0bb23,我可以确认CSV文件分区和并行化会通过使用更大的数据集成倍增加。谢谢您的合作。快速要点:在spark中,执行者是重要的,而不是节点。也就是说,您可以在一个节点上处理所有数据,但由于该节点上有多个可用的执行器,因此它仍然可以均匀分布并进行良好的处理。也就是说,shuffle在spark中是昂贵的。我的猜测是spark catalyst引擎可能决定在一个节点上处理所有数据,以避免将数据转移到其他节点的成本。您可以通过强制数据在其他节点上可用(即跨节点复制)或使用更大的数据集来测试这一点。您好r0bb23,我可以确认CSV文件分区和并行化会通过使用更大的数据集成倍增加。谢谢您的合作。