Apache spark 如何连接到spark（远程CDH-5.8 docker虚拟机）？我需要在集装箱上映射端口7077吗？_Apache Spark_Docker_Port_Cloudera_Snappydata

Apache spark 如何连接到spark（远程CDH-5.8 docker虚拟机）？我需要在集装箱上映射端口7077吗？

apache-spark docker

Apache spark 如何连接到spark（远程CDH-5.8 docker虚拟机）？我需要在集装箱上映射端口7077吗？,apache-spark,docker,port,cloudera,snappydata,Apache Spark,Docker,Port,Cloudera,Snappydata,目前，我可以从应用程序内部访问HDFS，但我也希望使用Cloudera的spark，而不是运行我的本地spark，因为它是在Cloudera Manager中启用的现在我在core-site.xml中定义了HDFS，我以（--master）的身份运行我的应用程序。因此，我不需要将机器地址设置为我的HDFS文件。这样，我的SPARK作业在本地运行，而不是在“集群”中运行。我现在不想这样。当我尝试将--master设置为[namenode]：[port]时，它没有连接。我想知道我是否指向正确的端口

目前，我可以从应用程序内部访问HDFS，但我也希望使用Cloudera的spark，而不是运行我的本地spark，因为它是在Cloudera Manager中启用的

现在我在core-site.xml中定义了HDFS，我以（--master）的身份运行我的应用程序。因此，我不需要将机器地址设置为我的HDFS文件。这样，我的SPARK作业在本地运行，而不是在“集群”中运行。我现在不想这样。当我尝试将--master设置为[namenode]：[port]时，它没有连接。我想知道我是否指向正确的端口，或者是否必须在docker容器上映射此端口。或者如果我缺少一些关于纱线设置的信息

此外，我一直在测试SnappyData（Inc）解决方案作为内存数据库中的Spark SQL。因此，我的目标是在本地运行snappy JVM，但将spark作业重定向到VM集群。这里的整个想法是针对一些Hadoop实现测试一些性能。此解决方案不是最终产品（如果snappy是本地的，spark是“真正的”远程的，我相信它不会有效-但在这种情况下，我会将snappy JVM带到同一个集群..）

提前谢谢