Apache spark 基于Spark的存储在SSD上的数据处理

Apache spark 基于Spark的存储在SSD上的数据处理,apache-spark,apache-spark-sql,hdfs,solid-state-drive,Apache Spark,Apache Spark Sql,Hdfs,Solid State Drive,我们目前正在使用基于Spark 2.1的应用程序,该应用程序分析和处理大量记录,以生成一些用于生成报告的统计数据。现在我们的spark作业使用150个执行器,每个执行器2个内核,每个执行器10 GB,数据大小以拼花格式存储约3TB。处理12个月的数据需要约15分钟的时间 现在为了提高性能,我们想尝试使用基于SSD的完整节点在HDFS中存储数据。问题是,SSD是否需要进行特殊配置/优化?是否对基于SSD的HDF与基于HDD的HDF的Spark处理性能进行过研究 SPARK_LOCAL_DIRS是您

我们目前正在使用基于Spark 2.1的应用程序,该应用程序分析和处理大量记录,以生成一些用于生成报告的统计数据。现在我们的spark作业使用150个执行器,每个执行器2个内核,每个执行器10 GB,数据大小以拼花格式存储约3TB。处理12个月的数据需要约15分钟的时间

现在为了提高性能,我们想尝试使用基于SSD的完整节点在HDFS中存储数据。问题是,SSD是否需要进行特殊配置/优化?是否对基于SSD的HDF与基于HDD的HDF的Spark处理性能进行过研究

SPARK_LOCAL_DIRS是您需要更改的配置


用例是K表示algo,但会有帮助。

如果它解决了您的问题,您应该接受答案。@Viplock我现在已经接受了答案。实际上我只是在等更多的指示。