Apache spark &引用;“尚未开始任何任务”;对于包含重新分区()的Spark作业
在对一份pyspark工作“还没有开始任何任务”挠头一段时间后,问题被隔离为: 作品:Apache spark &引用;“尚未开始任何任务”;对于包含重新分区()的Spark作业,apache-spark,pyspark,Apache Spark,Pyspark,在对一份pyspark工作“还没有开始任何任务”挠头一段时间后,问题被隔离为: 作品: ssc = HiveContext(sc) sqlRdd = ssc.sql(someSql) sqlRdd.collect() 添加repartition()并挂起“尚未启动任何任务”: 这是在与CDH5捆绑的1.2.0上 ssc = HiveContext(sc) sqlRdd = ssc.sql(someSql).repartition(2) sqlRdd.collect()
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql)
sqlRdd.collect()
添加repartition()并挂起“尚未启动任何任务”:
这是在与CDH5捆绑的1.2.0上
ssc = HiveContext(sc)
sqlRdd = ssc.sql(someSql).repartition(2)
sqlRdd.collect()