Apache spark 在远程配置单元上运行sql查询时出现未知主机错误_Apache Spark_Hadoop_Hive

Apache spark 在远程配置单元上运行sql查询时出现未知主机错误

apache-spark hadoop hive

Apache spark 在远程配置单元上运行sql查询时出现未知主机错误,apache-spark,hadoop,hive,Apache Spark,Hadoop,Hive,经过数小时的谷歌搜索，我找不到任何关于这个的信息，所以我希望我能在这里找到一些解决问题的方法我正在尝试使用spark2从远程配置单元集群获取数据。我遵循了：我成功地连接到远程配置单元元存储但是，当我在远程配置单元中执行查询时，问题就开始了。e、 g spark.sql（“从表中选择count（*））。我将得到一个“未知主机：ns bigdata”错误。其中ns bigdata是远程群集的群集名称我在这里还遗漏了什么？需要我指定hive.metastore.warehouse.dir也

经过数小时的谷歌搜索，我找不到任何关于这个的信息，所以我希望我能在这里找到一些解决问题的方法

我正在尝试使用spark2从远程配置单元集群获取数据。我遵循了：

我成功地连接到远程配置单元元存储

但是，当我在远程配置单元中执行查询时，问题就开始了。e、 g spark.sql（“从表中选择count（*））。我将得到一个“未知主机：ns bigdata”错误。其中ns bigdata是远程群集的群集名称

我在这里还遗漏了什么？需要我指定hive.metastore.warehouse.dir也应该在哪里吗？例如hdfs://local-cluster:8020/user/hive/warehouse

提前感谢。

配置单元服务器URL位于配置单元站点中。你能试着用一下吗？？

还要检查spark的conf/目录中是否存在hive-site.xml，真正的原因是客户没有在hive thrift服务器中设置kerberos证书以进行跨领域身份验证。我们最终使用了jdbc impala。

听起来您的DNS服务器不工作。尝试使用IP地址不要认为是DNS，因为我的spark会话能够连接到主机名为spark.config（“spark.hadoop.hive.metastore.uri”）的远程配置单元元存储thrift://remote.hive.domain:9083）这只是一个字符串。在实际运行运行simpler query spark.sql（“show databases”）.show（）的queryTry以确保连接正常之前，不会尝试连接。如果效果良好，则在查询中也包括数据库名称。spark.sql（“select count（*）from database.table”）同样，为了澄清运行spark2 submit或spark2 shell的机器不在集群“ns bigdata”中。经过一些思考，我认为@cricket_007可能是正确的。试想一下，当我尝试运行查询时，配置单元试图访问hdfs中的仓库目录以检查架构，但找不到它所在的位置，因为我的spark群集不知道ns bigdata所在的位置。我将尝试查看是否可以获取ns bigdata的IP，并尝试将其放入集群的主机文件中。