Apache spark CDH 6.2配置单元无法在Spark和MapReduce上执行查询_Apache Spark_Hive_Mapreduce_Cloudera Cdh

Apache spark CDH 6.2配置单元无法在Spark和MapReduce上执行查询

apache-spark hive mapreduce

Apache spark CDH 6.2配置单元无法在Spark和MapReduce上执行查询,apache-spark,hive,mapreduce,cloudera-cdh,Apache Spark,Hive,Mapreduce,Cloudera Cdh,我试图在配置单元上运行一个简单的select count（*）from table查询，但失败了，出现以下错误：失败：执行错误，从org.apache.hadoop.hive.ql.exec.spark.SparkTask返回代码30041。未能为Spark会话5414a8a4-5252-4ccf-b63e-2ee563f7d772创建Spark客户端0:java.lang.ClassNotFoundException:org.apache.Spark.SparkConf 自从我迁移到CDH

我试图在配置单元上运行一个简单的

select count（*）from table

查询，但失败了，出现以下错误：

失败：执行错误，从org.apache.hadoop.hive.ql.exec.spark.SparkTask返回代码30041。未能为Spark会话5414a8a4-5252-4ccf-b63e-2ee563f7d772创建Spark客户端0:java.lang.ClassNotFoundException:org.apache.Spark.SparkConf

自从我迁移到CDH 6.2并启用Spark（版本2.4.0-cdh6.2.0）作为配置单元（版本2.1.1-cdh6.2.0）的执行引擎后，这种情况就发生了

我的猜测是Hive没有正确配置来启动Spark。我尝试将

hive site.xml

的

spark.home

属性设置为

/opt/cloudera/parcels/CDH/lib/spark/

，并将

spark\u home

环境变量设置为相同的值，但没有任何区别

报告了类似的问题，但解决方案（即将

spark assembly.jar

文件放入Hive的

lib

目录）无法应用（因为该文件不再以最新spark版本构建）

解决了一个类似但不同的问题，与纱线的内存限制有关

此外，在执行引擎仍然失败时切换到MapReduce，但出现不同的错误：

失败：执行错误，从org.apache.hadoop.hive.ql.exec.mr.MapRedTask返回代码-101。org/apache/hadoop/hdfs/protocol/systemerasurecoddingpolicies

在谷歌上查找最新的错误根本没有结果

更新：我发现当通过其他工具（如Beeline、Hue、Spark）连接到配置单元时，查询确实可以工作，并且独立于底层执行引擎（如MapReduce或Spark）。因此，错误可能存在于配置单元CLI中，该CLI目前已被弃用

更新2：相同的问题实际上发生在创建表查询的Beeline和Hue上；我只能通过齐柏林飞艇的蜂巢解释器来执行它

我不认为这件事能通过显示的信息得到解决。我建议遇到此类问题的人记录一份支持记录单，支持团队可以从中请求详细的配置信息和错误日志，这通常是解决问题所需的。当然，如果你或任何人能够解决这个问题，看到答案将是非常棒的。