Apache spark 使用spark作为配置单元执行引擎的最佳参数?

Apache spark 使用spark作为配置单元执行引擎的最佳参数?,apache-spark,hadoop,hive,apache-spark-sql,cloudera,Apache Spark,Hadoop,Hive,Apache Spark Sql,Cloudera,正在寻找最佳实践,必须具有最佳设置才能将spark用作配置单元执行引擎,并在spark引擎上运行配置单元查询。以下是群集配置: 节点:30核:16内存:112GB/节点Hadoop 2.6.0-cdh5.13.0 Hive 1.1.0-cdh5.13.0 spark:2.3.0 观察:如果有复杂的连接或处理大量数据,大多数查询都会挂起。有些查询使用spark会执行得更好更快,而mr更稳定,不会像spark那样出错或长时间运行。有什么建议或改进来避免这些问题吗

正在寻找最佳实践,必须具有最佳设置才能将spark用作配置单元执行引擎,并在spark引擎上运行配置单元查询。以下是群集配置:

节点:30核:16内存:112GB/节点Hadoop 2.6.0-cdh5.13.0 Hive 1.1.0-cdh5.13.0 spark:2.3.0

观察:如果有复杂的连接或处理大量数据,大多数查询都会挂起。有些查询使用spark会执行得更好更快,而mr更稳定,不会像spark那样出错或长时间运行。有什么建议或改进来避免这些问题吗