Apache spark 不允许EMR主SSH
为了运行Scala spark作业和spark shell查询,我一直在SSHing进入EMR的Masternode,现在负责管理云的团队不允许我SSH进入EMR Masternode。可以利用的替代模式有哪些?如果云团队乐意允许访问齐柏林飞艇,那么齐柏林飞艇是您的最佳选择Apache spark 不允许EMR主SSH,apache-spark,ssh,amazon-emr,Apache Spark,Ssh,Amazon Emr,为了运行Scala spark作业和spark shell查询,我一直在SSHing进入EMR的Masternode,现在负责管理云的团队不允许我SSH进入EMR Masternode。可以利用的替代模式有哪些?如果云团队乐意允许访问齐柏林飞艇,那么齐柏林飞艇是您的最佳选择 %spark解释器在笔记本的段落中运行 默认情况下,它还导入重要内容,如spark.sql,SparkContext等,因此您不需要导入任何内容,只需运行代码即可,例如: %spark val myDf = spark.sq
%spark
解释器在笔记本的段落中运行
默认情况下,它还导入重要内容,如spark.sql
,SparkContext
等,因此您不需要导入任何内容,只需运行代码即可,例如:
%spark
val myDf = spark.sql(“select * from table”)
myDf.limit(10).show()
val myOtherDf = spark.read.csv(“s3://bucket/key/object.csv”)
myOtherDf.limit(10).show()
(spark shell
也可以这样做,但我使用它的时间不足以立即了解)
由于齐柏林飞艇实际上在Spark主节点上运行,您甚至可以使用shell解释器%sh
访问主节点的操作系统,例如:
%sh
ls /
aws s3 cp s3://mybucket/myfile /
当然,您的访问权限取决于操作系统权限
请注意,一旦您杀死集群,您的笔记本也将消失!如果可能的话,一定要下载它 我使用默认的“hadoop”用户id和SSHing进入EMR来运行spark shell查询和Scala spark程序……是否有一种模式不需要我登录到EMR MasterQuestion Zepplin WebUI是运行spark SQL查询的好选择?