Apache spark 使用apachespark查询多个配置单元存储_Apache Spark_Hive_Spark Hive

Apache spark 使用apachespark查询多个配置单元存储

apache-spark hive

Apache spark 使用apachespark查询多个配置单元存储,apache-spark,hive,spark-hive,Apache Spark,Hive,Spark Hive,我有一个spark应用程序，它将成功连接到配置单元并使用spark引擎查询配置单元表为了构建它，我刚刚将hive site.xml添加到应用程序的类路径中，spark将读取hive site.xml以连接到它的元存储。spark的邮件列表中建议了这种方法到目前为止还不错。现在我想连接到两个hive商店，我不认为在我的类路径中添加另一个hive site.xml会有帮助。我参考了不少文章和spark邮件列表，但找不到有人这样做有人能建议我如何做到这一点吗谢谢参考文件：这在当前版

我有一个spark应用程序，它将成功连接到配置单元并使用spark引擎查询配置单元表

为了构建它，我刚刚将

hive site.xml

添加到应用程序的类路径中，spark将读取

hive site.xml

以连接到它的元存储。spark的邮件列表中建议了这种方法

到目前为止还不错。现在我想连接到两个hive商店，我不认为在我的类路径中添加另一个

hive site.xml

会有帮助。我参考了不少文章和spark邮件列表，但找不到有人这样做

有人能建议我如何做到这一点吗

谢谢

参考文件：

hive.metastore.uri

hive.metastore.uri

Spark.driver.allowMultipleContexts

环境详细信息

代码示例

import org.apache.spark.SparkConf
import org.apache.spark.sql.SQLContext
import org.apache.spark.SparkContext
object HiveMultiEnvironment {
  def main(args: Array[String]) {
    var conf = new SparkConf().setAppName("JDBC").setMaster("local")
    var sc = new SparkContext(conf)
    var sqlContext = new SQLContext(sc)

    // load hive table (or) sub-query from Environment 1

    val jdbcDF1 = sqlContext.load("jdbc", Map(
      "url" -> "jdbc:hive2://<host1>:10000/<db>",
      "dbtable" -> "<db.tablename or subquery>",
      "driver" -> "org.apache.hive.jdbc.HiveDriver",
      "user" -> "<username>",
      "password" -> "<password>"))
    jdbcDF1.foreach { println }
      
    // load hive table (or) sub-query from Environment 2

    val jdbcDF2 = sqlContext.load("jdbc", Map(
      "url" -> "jdbc:hive2://<host2>:10000/<db>",
      "dbtable" -> "<db.tablename> or <subquery>",
      "driver" -> "org.apache.hive.jdbc.HiveDriver",
      "user" -> "<username>",
      "password" -> "<password>"))
    jdbcDF2.foreach { println }
  }
  // todo: business logic
}

import org.apache.spark.SparkConf
导入org.apache.spark.sql.SQLContext
导入org.apache.spark.SparkContext
对象HiveMultiEnvironment{
def main（参数：数组[字符串]）{
var conf=new SparkConf（）.setAppName（“JDBC”）.setMaster（“本地”）
var sc=新的SparkContext（conf）
var sqlContext=新的sqlContext（sc）
//从环境1加载配置单元表（或）子查询
val jdbcDF1=sqlContext.load（“jdbc”，Map(
“url”->“jdbc:hive2://:10000/”，
“数据库表”->”，
“驱动程序”->“org.apache.hive.jdbc.HiveDriver”，
“用户”->”，
“密码”->”）
jdbcDF1.foreach{println}
//从环境2中加载配置单元表（或）子查询
val jdbcDF2=sqlContext.load（“jdbc”，Map(
“url”->“jdbc:hive2://:10000/”，
“数据库表”->“或”，
“驱动程序”->“org.apache.hive.jdbc.HiveDriver”，
“用户”->”，
“密码”->”）
jdbcDF2.foreach{println}
}
//todo:业务逻辑
}

我没有尝试过的

sc.wholeTextFiles（'hdfs://host/usr/hive/warehouse/mytable“）