如何将Spark笔记本连接到Hive metastore?

如何将Spark笔记本连接到Hive metastore?,hive,apache-spark-sql,cloudera-cdh,spark-notebook,apache-spark-1.2,Hive,Apache Spark Sql,Cloudera Cdh,Spark Notebook,Apache Spark 1.2,这是一个包含Hadoop 2.5.0、Spark 1.2.0、Scala 2.10的集群,由CDH 5.3.2提供。我用了一个 默认情况下,Spark Notebook似乎无法找到配置单元元存储 如何为spark notebook指定hive site.xml的位置,以便它可以加载hive元存储 以下是我尝试过的: 将/etc/hive/conf中包含hive-site.xml的所有文件链接到当前目录 在bash中指定SPARK_CONF_DIR变量 启动笔记本电脑时,将环境变量EXTRA_CL

这是一个包含Hadoop 2.5.0、Spark 1.2.0、Scala 2.10的集群,由CDH 5.3.2提供。我用了一个

默认情况下,Spark Notebook似乎无法找到配置单元元存储

如何为spark notebook指定
hive site.xml
的位置,以便它可以加载hive元存储

以下是我尝试过的:

  • 将/etc/hive/conf中包含hive-site.xml的所有文件链接到当前目录

  • 在bash中指定SPARK_CONF_DIR变量


  • 启动笔记本电脑时,将环境变量EXTRA_CLASSPATH设置为hive-site.xml所在的路径, 这对我很有用:
    EXTRA\u CLASSPATH=/path\u我的mysql\u连接器/mysql连接器java.jar:/my\u hive\u site.xml\u目录/conf./bin/spark笔记本
    我还传递了mysqlconnector的jar,因为我有MySql的Hive


    我从这个链接中找到了一些信息:

    使用CDH 5.5.0 Quickstart VM,解决方案如下:您需要将参考
    配置单元站点.xml
    添加到笔记本中,该笔记本提供配置单元元存储的访问信息。默认情况下,spark笔记本使用内部元存储

    您可以在
    ~/.bash\u概要文件中定义以下环境变量:

    HADOOP_CONF_DIR=$HADOOP_CONF_DIR:/etc/hive/conf.cloudera.hive/
    export HADOOP_CON_DIR
    
    (如果没有打开新的终端,请确保执行
    source~/.bash_profile


    (此处给出了解决方案:)

    您是否已经启动了hive metastore服务?