Apache spark 基于Spark的存储在SSD上的数据处理_Apache Spark_Apache Spark Sql_Hdfs_Solid State Drive

Apache spark 基于Spark的存储在SSD上的数据处理

apache-spark

Apache spark 基于Spark的存储在SSD上的数据处理,apache-spark,apache-spark-sql,hdfs,solid-state-drive,Apache Spark,Apache Spark Sql,Hdfs,Solid State Drive,我们目前正在使用基于Spark 2.1的应用程序，该应用程序分析和处理大量记录，以生成一些用于生成报告的统计数据。现在我们的spark作业使用150个执行器，每个执行器2个内核，每个执行器10 GB，数据大小以拼花格式存储约3TB。处理12个月的数据需要约15分钟的时间现在为了提高性能，我们想尝试使用基于SSD的完整节点在HDFS中存储数据。问题是，SSD是否需要进行特殊配置/优化？是否对基于SSD的HDF与基于HDD的HDF的Spark处理性能进行过研究 SPARK_LOCAL_DIRS是您

我们目前正在使用基于Spark 2.1的应用程序，该应用程序分析和处理大量记录，以生成一些用于生成报告的统计数据。现在我们的spark作业使用150个执行器，每个执行器2个内核，每个执行器10 GB，数据大小以拼花格式存储约3TB。处理12个月的数据需要约15分钟的时间

现在为了提高性能，我们想尝试使用基于SSD的完整节点在HDFS中存储数据。问题是，SSD是否需要进行特殊配置/优化？是否对基于SSD的HDF与基于HDD的HDF的Spark处理性能进行过研究

SPARK_LOCAL_DIRS是您需要更改的配置

用例是K表示algo，但会有帮助。

如果它解决了您的问题，您应该接受答案。@Viplock我现在已经接受了答案。实际上我只是在等更多的指示。