Apache spark AWS EMR多作业依赖项争用 问题
我正在尝试在EMR中运行2个pyspark步骤,这两个步骤都是使用KinesisUtils从Kinesis读取的。这需要相关库spark-streaming-kinesis-asl_2.11 我正在使用Terraform建立EMR集群,并使用args调用以下两个步骤: --packagesorg.apache.spark:spark-streaming-kinesis-asl_2.11:2.4.5 在启动时似乎存在争用,这两个步骤都是从maven下载jar并导致校验和失败 尝试的事情Apache spark AWS EMR多作业依赖项争用 问题,apache-spark,hadoop,pyspark,amazon-emr,amazon-kinesis,Apache Spark,Hadoop,Pyspark,Amazon Emr,Amazon Kinesis,我正在尝试在EMR中运行2个pyspark步骤,这两个步骤都是使用KinesisUtils从Kinesis读取的。这需要相关库spark-streaming-kinesis-asl_2.11 我正在使用Terraform建立EMR集群,并使用args调用以下两个步骤: --packagesorg.apache.spark:spark-streaming-kinesis-asl_2.11:2.4.5 在启动时似乎存在争用,这两个步骤都是从maven下载jar并导致校验和失败 尝试的事情 我尝试使用
--jars
谢谢,真的很感谢你的关注,这就是我最终要做的,现在它正在发挥作用,只是看起来有点变通。
"spark.jars.packages": "org.apache.spark:spark-streaming-kinesis-asl_2.11:2.4.5"