Apache spark 在VM群集上安装Presto并将其连接到其他群集上的HDFS

Apache spark 在VM群集上安装Presto并将其连接到其他群集上的HDFS,apache-spark,hdfs,yarn,presto,hdp,Apache Spark,Hdfs,Yarn,Presto,Hdp,我们有一个HDP2.6.4 spark集群,它有10台linux工作机器 集群通过HDFS运行spark应用程序。HDFS安装在所有工人身上 我们希望安装将查询集群的HDF的presto,但是由于工作机器中缺少CPU资源(每台机器只有32个内核),计划在集群之外安装presto 为此,我们有几个ESX,每个ESX将有2个VM,每个VM将运行一个presto服务器 所有ESX计算机都将通过10g网卡连接到spark群集,以便两个群集位于同一网络中 我的问题是-尽管HDFS不在ESX群集上(而是在s

我们有一个HDP2.6.4 spark集群,它有10台linux工作机器

集群通过HDFS运行spark应用程序。HDFS安装在所有工人身上

我们希望安装将查询集群的HDF的presto,但是由于工作机器中缺少CPU资源(每台机器只有32个内核),计划在集群之外安装presto

为此,我们有几个ESX,每个ESX将有2个VM,每个VM将运行一个presto服务器

所有ESX计算机都将通过10g网卡连接到spark群集,以便两个群集位于同一网络中

我的问题是-尽管HDFS不在ESX群集上(而是在spark群集上),但我们是否可以在VM群集上安装presto

编辑:

从我们得到的答案来看,在VM上安装presto似乎是标准的,所以我想澄清我的问题:

Presto在Presto/etc下有一个名为hive.properties的配置文件

在该文件中有一个名为hive.config.resources的参数,其值如下:

/etc/hadoop/conf/presto hdfs site.xml,/etc/hadoop/conf/presto-core-site.xml

这些文件是HDFS配置文件,但由于VM群集和spark群集(包含HDFS)是独立的(VM群集上的presto应该访问spark群集上的HDFS),因此问题是——


是否应该将这些文件从spark群集复制到VM群集?

只要将Presto VM配置为边缘节点(也称为网关节点),并且具有所有必要的配置文件和工具,您就不会有任何问题。有关边缘节点的详细信息,请参见:


关于您的问题-我的问题是-我们是否可以在VM群集上安装presto,尽管HDFS不在ESX群集上(而是在spark群集上)

答案是肯定的

在这个没有与HDFS共同托管的集群上,不要忘记在
hive.properties

hive.force-local-scheduling=false

这应该行得通。这是一个非常常见的设置。@Dain,请参阅EladFWIU的更新。大多数设置不需要额外的站点xml文件,但您通常只需要复制它们。您是否使用Ambari(因为您使用的是HDP)?安巴里应该注意这一点。