Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 从远程提交Python作业到spark_Apache Spark_Pyspark - Fatal编程技术网

Apache spark 从远程提交Python作业到spark

Apache spark 从远程提交Python作业到spark,apache-spark,pyspark,Apache Spark,Pyspark,我在本地系统上有一个pyspark代码的python脚本。我正在尝试将pyspark作业从本地计算机提交到远程spark群集 请告诉我怎么做。 我是否需要在本地安装spark才能提交spark作业。您需要在spark配置中设置spark主URL,如下所示 SparkSession spark = SparkSession.builder().appName("CDX JSON Merge Job").master("spark://ip-address:7077")

我在本地系统上有一个pyspark代码的python脚本。我正在尝试将pyspark作业从本地计算机提交到远程spark群集

请告诉我怎么做。
我是否需要在本地安装spark才能提交spark作业。

您需要在spark配置中设置spark主URL,如下所示

SparkSession spark = SparkSession.builder().appName("CDX JSON Merge Job").master("spark://ip-address:7077")
                .getOrCreate();
您必须在本地主机中安装spark客户端,然后使用
spark submit

spark-submit --num-executors 50 --executor-memory 4G --executor-cores 4 --master spark://ip-address:7077 --deploy-mode client --class fully-qualified-class-name  artifact.jar

如果运行Spark on Thread并将模式部署为群集,也可以将master作为纱线。

谢谢,我正在运行Spark on Thread模式。我们需要指定spark主url还是需要复制一些hadoop conf文件并设置一些环境变量。