Apache spark CDH 6.2配置单元无法在Spark和MapReduce上执行查询

Apache spark CDH 6.2配置单元无法在Spark和MapReduce上执行查询,apache-spark,hive,mapreduce,cloudera-cdh,Apache Spark,Hive,Mapreduce,Cloudera Cdh,我试图在配置单元上运行一个简单的select count(*)from table查询,但失败了,出现以下错误: 失败:执行错误,从org.apache.hadoop.hive.ql.exec.spark.SparkTask返回代码30041。未能为Spark会话5414a8a4-5252-4ccf-b63e-2ee563f7d772创建Spark客户端0:java.lang.ClassNotFoundException:org.apache.Spark.SparkConf 自从我迁移到CDH

我试图在配置单元上运行一个简单的
select count(*)from table
查询,但失败了,出现以下错误:

失败:执行错误,从org.apache.hadoop.hive.ql.exec.spark.SparkTask返回代码30041。未能为Spark会话5414a8a4-5252-4ccf-b63e-2ee563f7d772创建Spark客户端0:java.lang.ClassNotFoundException:org.apache.Spark.SparkConf

自从我迁移到CDH 6.2并启用Spark(版本2.4.0-cdh6.2.0)作为配置单元(版本2.1.1-cdh6.2.0)的执行引擎后,这种情况就发生了

我的猜测是Hive没有正确配置来启动Spark。我尝试将
hive site.xml
spark.home
属性设置为
/opt/cloudera/parcels/CDH/lib/spark/
,并将
spark\u home
环境变量设置为相同的值,但没有任何区别

报告了类似的问题,但解决方案(即将
spark assembly.jar
文件放入Hive的
lib
目录)无法应用(因为该文件不再以最新spark版本构建)

解决了一个类似但不同的问题,与纱线的内存限制有关

此外,在执行引擎仍然失败时切换到MapReduce,但出现不同的错误:

失败:执行错误,从org.apache.hadoop.hive.ql.exec.mr.MapRedTask返回代码-101。org/apache/hadoop/hdfs/protocol/systemerasurecoddingpolicies

在谷歌上查找最新的错误根本没有结果


更新:我发现当通过其他工具(如Beeline、Hue、Spark)连接到配置单元时,查询确实可以工作,并且独立于底层执行引擎(如MapReduce或Spark)。因此,错误可能存在于配置单元CLI中,该CLI目前已被弃用



更新2:相同的问题实际上发生在创建表查询的Beeline和Hue上;我只能通过齐柏林飞艇的蜂巢解释器来执行它

我不认为这件事能通过显示的信息得到解决。我建议遇到此类问题的人记录一份支持记录单,支持团队可以从中请求详细的配置信息和错误日志,这通常是解决问题所需的。当然,如果你或任何人能够解决这个问题,看到答案将是非常棒的。