Apache spark spark中的管道问题
我在使用pyspark和管道构造时遇到问题。我认为这些应该是相等的。 案例1:Apache spark spark中的管道问题,apache-spark,pipe,pyspark,Apache Spark,Pipe,Pyspark,我在使用pyspark和管道构造时遇到问题。我认为这些应该是相等的。 案例1: lines = sc.textFile("s3n://somestuff").map(lambda line: line) lines.saveAsTextFile("s3n://otherstuff") 及 案例2: lines = sc.textFile("s3n://somestuff").pipe('cat') lines.saveAsTextFile("s3n://otherstuff")
lines = sc.textFile("s3n://somestuff").map(lambda line: line)
lines.saveAsTextFile("s3n://otherstuff")
及
案例2:
lines = sc.textFile("s3n://somestuff").pipe('cat')
lines.saveAsTextFile("s3n://otherstuff")
我认为唯一的区别是管道应该在分区上运行,而映射在每行上运行,但结果应该是等效的
案例1在我的案例中运行大约50秒(1毫米行)
&案例2在20分钟后仍未结束。
我缺少一些基本的东西吗
只是尝试在shell中使用等效scala代码中的管道运行案例2。大约6秒后完成。pyspark shell中同样的事情不会在几分钟内完成
由于通过
sc.parallelize
的文档中的示例确实有效,我认为这不一定是一个bug。也许我遗漏了一些参数?有人经历过类似的事情吗?你能找到缓慢的原因吗?