Apache spark Spark中的本地磁盘配置

Apache spark Spark中的本地磁盘配置,apache-spark,Apache Spark,您好,Spark官方文档说明: 虽然Spark可以在内存中执行大量计算,但它仍然 使用本地磁盘存储不适合RAM的数据,以及 保留阶段之间的中间输出。我们建议吃4-8个 每个节点的磁盘数,配置时不使用RAID(就像单独装载一样 点)。在Linux中,使用noatime选项装载磁盘以减少 不必要的写作。在Spark中,配置Spark.local.dir变量 以逗号分隔的本地磁盘列表。如果你正在跑步 HDFS,可以使用与HDFS相同的磁盘 我想知道每个节点4-8个的目的是什么 是并行写的吗?我不知

您好,Spark官方文档说明:

虽然Spark可以在内存中执行大量计算,但它仍然 使用本地磁盘存储不适合RAM的数据,以及 保留阶段之间的中间输出。我们建议吃4-8个 每个节点的磁盘数,配置时不使用RAID(就像单独装载一样 点)。在Linux中,使用noatime选项装载磁盘以减少 不必要的写作。在Spark中,配置Spark.local.dir变量 以逗号分隔的本地磁盘列表。如果你正在跑步 HDFS,可以使用与HDFS相同的磁盘

  • 我想知道每个节点4-8个的目的是什么
是并行写的吗?我不知道为什么,因为没有解释

  • 对此我毫无头绪:“如果您正在运行HDFS,那么使用它就可以了 与HDFS相同的磁盘。“

知道这里的意思吗…

使用4-8个RAID磁盘镜像分区的目的是增加冗余,以防止在硬件级别出现故障时丢失数据。对于HDFS,不需要RAID提供的冗余,因为HDFS通过节点之间的复制来处理冗余。

我可能不明白你的意思,但官方文档中说没有RAID,而你的评论中谈到了使用RAID磁盘。如果我理解清楚的话,4到8个磁盘是没有hdfs的还是没有hdfs的。因此,您的评论增加了一点混乱,尽管链接很有趣。如果执行者有8个任务,那么他最好有8个磁盘?要镜像分区,请使用??如果hdfs配置了正确的复制级别,则不需要raid。