Apache spark 使用spark引擎执行配置单元查询

Apache spark 使用spark引擎执行配置单元查询,apache-spark,hive,Apache Spark,Hive,我已经在ubuntu 16.04系统中安装了HADOOP 2.7.2、HIVE 2.1、SCALA 2.11.8和SPARK 2.0 Hadoop、hive和spark运行良好。我可以连接到hive cli并使用map reduce,没有任何问题 我必须提高ORDERBY子句的配置单元查询性能 我只能使用Hive cli,不能使用spark shell 我正在尝试使用spark作为配置单元上的查询执行引擎 我按照此说明进行操作,我将配置单元中的某些属性设置为: set hive.executio

我已经在ubuntu 16.04系统中安装了HADOOP 2.7.2、HIVE 2.1、SCALA 2.11.8和SPARK 2.0

Hadoop、hive和spark运行良好。我可以连接到hive cli并使用map reduce,没有任何问题

我必须提高ORDERBY子句的配置单元查询性能

我只能使用Hive cli,不能使用spark shell

我正在尝试使用spark作为配置单元上的查询执行引擎

我按照此说明进行操作,我将配置单元中的某些属性设置为:

set hive.execution.engine=spark;
set spark.home=/usr/local/spark
set spark.master=spark://ip:7077
我按如下方式执行查询:

select count(*) from table_name;
然后抛出以下异常:

未能创建spark客户端


我还增加了配置单元客户端连接到spark的超时时间。但是,这是没有用的

首先,我建议您使用shell并遵循以下步骤:

spark-shell --master yarn-client --driver-memory 512m --executor-memory 512m
您可以运行:

import org.apache.spark.sql.hive.orc._
import org.apache.spark.sql._
val hiveContext = new org.apache.spark.sql.hive.HiveContext(sc)
hiveContext.sql("create table myTable (myField STRING) stored as orc")

如果这样做有效,您可以使用hiveContext执行另一个SQL查询。您的问题是什么?鉴于这是Google在“local spark”“hive query”中最热门的搜索结果,为什么对该问题投了这么多反对票,而只给出了没有任何解释的答案?我们正在hive中使用hbase存储处理程序表。您在哪里提到“hbase”?那你就别记下我的回答我的问题更新了。。。请查收。。。hbase已脱离上下文@对不起,我没有记下你的回答。。。事实上,谢谢你的回复。。。