Apache spark 从远程提交Python作业到spark
我在本地系统上有一个pyspark代码的python脚本。我正在尝试将pyspark作业从本地计算机提交到远程spark群集 请告诉我怎么做。Apache spark 从远程提交Python作业到spark,apache-spark,pyspark,Apache Spark,Pyspark,我在本地系统上有一个pyspark代码的python脚本。我正在尝试将pyspark作业从本地计算机提交到远程spark群集 请告诉我怎么做。 我是否需要在本地安装spark才能提交spark作业。您需要在spark配置中设置spark主URL,如下所示 SparkSession spark = SparkSession.builder().appName("CDX JSON Merge Job").master("spark://ip-address:7077")
我是否需要在本地安装spark才能提交spark作业。您需要在spark配置中设置spark主URL,如下所示
SparkSession spark = SparkSession.builder().appName("CDX JSON Merge Job").master("spark://ip-address:7077")
.getOrCreate();
您必须在本地主机中安装spark客户端,然后使用spark submit
spark-submit --num-executors 50 --executor-memory 4G --executor-cores 4 --master spark://ip-address:7077 --deploy-mode client --class fully-qualified-class-name artifact.jar
如果运行Spark on Thread并将模式部署为群集,也可以将master作为纱线。谢谢,我正在运行Spark on Thread模式。我们需要指定spark主url还是需要复制一些hadoop conf文件并设置一些环境变量。