Apache spark 在远程配置单元上运行sql查询时出现未知主机错误

Apache spark 在远程配置单元上运行sql查询时出现未知主机错误,apache-spark,hadoop,hive,Apache Spark,Hadoop,Hive,经过数小时的谷歌搜索,我找不到任何关于这个的信息,所以我希望我能在这里找到一些解决问题的方法 我正在尝试使用spark2从远程配置单元集群获取数据。我遵循了: 我成功地连接到远程配置单元元存储 但是,当我在远程配置单元中执行查询时,问题就开始了。e、 g spark.sql(“从表中选择count(*))。我将得到一个“未知主机:ns bigdata”错误。其中ns bigdata是远程群集的群集名称 我在这里还遗漏了什么?需要我指定hive.metastore.warehouse.dir也

经过数小时的谷歌搜索,我找不到任何关于这个的信息,所以我希望我能在这里找到一些解决问题的方法

我正在尝试使用spark2从远程配置单元集群获取数据。我遵循了:

  • 我成功地连接到远程配置单元元存储

    但是,当我在远程配置单元中执行查询时,问题就开始了。e、 g spark.sql(“从表中选择count(*))。我将得到一个“未知主机:ns bigdata”错误。其中ns bigdata是远程群集的群集名称

    我在这里还遗漏了什么?需要我指定hive.metastore.warehouse.dir也应该在哪里吗?例如hdfs://local-cluster:8020/user/hive/warehouse


    提前感谢。

    配置单元服务器URL位于配置单元站点中。你能试着用一下吗??
    还要检查spark的conf/目录中是否存在hive-site.xml,真正的原因是客户没有在hive thrift服务器中设置kerberos证书以进行跨领域身份验证。我们最终使用了jdbc impala。

    听起来您的DNS服务器不工作。尝试使用IP地址不要认为是DNS,因为我的spark会话能够连接到主机名为spark.config(“spark.hadoop.hive.metastore.uri”)的远程配置单元元存储thrift://remote.hive.domain:9083)这只是一个字符串。在实际运行运行simpler query spark.sql(“show databases”).show()的queryTry以确保连接正常之前,不会尝试连接。如果效果良好,则在查询中也包括数据库名称。spark.sql(“select count(*)from database.table”)同样,为了澄清运行spark2 submit或spark2 shell的机器不在集群“ns bigdata”中。经过一些思考,我认为@cricket_007可能是正确的。试想一下,当我尝试运行查询时,配置单元试图访问hdfs中的仓库目录以检查架构,但找不到它所在的位置,因为我的spark群集不知道ns bigdata所在的位置。我将尝试查看是否可以获取ns bigdata的IP,并尝试将其放入集群的主机文件中。