Apache spark 不允许EMR主SSH_Apache Spark_Ssh_Amazon Emr

Apache spark 不允许EMR主SSH

apache-spark ssh

Apache spark 不允许EMR主SSH,apache-spark,ssh,amazon-emr,Apache Spark,Ssh,Amazon Emr,为了运行Scala spark作业和spark shell查询，我一直在SSHing进入EMR的Masternode，现在负责管理云的团队不允许我SSH进入EMR Masternode。可以利用的替代模式有哪些？如果云团队乐意允许访问齐柏林飞艇，那么齐柏林飞艇是您的最佳选择 %spark解释器在笔记本的段落中运行默认情况下，它还导入重要内容，如spark.sql，SparkContext等，因此您不需要导入任何内容，只需运行代码即可，例如： %spark val myDf = spark.sq

为了运行Scala spark作业和spark shell查询，我一直在SSHing进入EMR的Masternode，现在负责管理云的团队不允许我SSH进入EMR Masternode。可以利用的替代模式有哪些？

如果云团队乐意允许访问齐柏林飞艇，那么齐柏林飞艇是您的最佳选择

%spark

解释器在笔记本的段落中运行

默认情况下，它还导入重要内容，如

spark.sql

，

SparkContext

等，因此您不需要导入任何内容，只需运行代码即可，例如：

%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()

val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()

（

spark shell

也可以这样做，但我使用它的时间不足以立即了解）

由于齐柏林飞艇实际上在Spark主节点上运行，您甚至可以使用shell解释器

%sh

访问主节点的操作系统，例如：

%sh
ls /
aws s3 cp s3://mybucket/myfile /

当然，您的访问权限取决于操作系统权限

请注意，一旦您杀死集群，您的笔记本也将消失！如果可能的话，一定要下载它

我使用默认的“hadoop”用户id和SSHing进入EMR来运行spark shell查询和Scala spark程序……是否有一种模式不需要我登录到EMR MasterQuestion Zepplin WebUI是运行spark SQL查询的好选择？