Apache spark spark中的管道问题_Apache Spark_Pipe_Pyspark

Apache spark spark中的管道问题

apache-spark pyspark

Apache spark spark中的管道问题,apache-spark,pipe,pyspark,Apache Spark,Pipe,Pyspark,我在使用pyspark和管道构造时遇到问题。我认为这些应该是相等的。案例1： lines = sc.textFile("s3n://somestuff").map(lambda line: line) lines.saveAsTextFile("s3n://otherstuff") 及案例2： lines = sc.textFile("s3n://somestuff").pipe('cat') lines.saveAsTextFile("s3n://otherstuff")

我在使用pyspark和管道构造时遇到问题。我认为这些应该是相等的。案例1：

 lines = sc.textFile("s3n://somestuff").map(lambda line: line)
 lines.saveAsTextFile("s3n://otherstuff")

及案例2：

   lines = sc.textFile("s3n://somestuff").pipe('cat')
   lines.saveAsTextFile("s3n://otherstuff")

我认为唯一的区别是管道应该在分区上运行，而映射在每行上运行，但结果应该是等效的

案例1在我的案例中运行大约50秒（1毫米行） &案例2在20分钟后仍未结束。我缺少一些基本的东西吗

只是尝试在shell中使用等效scala代码中的管道运行案例2。大约6秒后完成。pyspark shell中同样的事情不会在几分钟内完成

由于通过

sc.parallelize

的文档中的示例确实有效，我认为这不一定是一个bug。也许我遗漏了一些参数？有人经历过类似的事情吗？

你能找到缓慢的原因吗？