Warning: file_get_contents(/data/phpspider/zhask/data//catemap/7/user-interface/2.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark spark中的管道问题_Apache Spark_Pipe_Pyspark - Fatal编程技术网

Apache spark spark中的管道问题

Apache spark spark中的管道问题,apache-spark,pipe,pyspark,Apache Spark,Pipe,Pyspark,我在使用pyspark和管道构造时遇到问题。我认为这些应该是相等的。 案例1: lines = sc.textFile("s3n://somestuff").map(lambda line: line) lines.saveAsTextFile("s3n://otherstuff") 及 案例2: lines = sc.textFile("s3n://somestuff").pipe('cat') lines.saveAsTextFile("s3n://otherstuff")

我在使用pyspark和管道构造时遇到问题。我认为这些应该是相等的。 案例1:

 lines = sc.textFile("s3n://somestuff").map(lambda line: line)
 lines.saveAsTextFile("s3n://otherstuff")
及 案例2:

   lines = sc.textFile("s3n://somestuff").pipe('cat')
   lines.saveAsTextFile("s3n://otherstuff")
我认为唯一的区别是管道应该在分区上运行,而映射在每行上运行,但结果应该是等效的

案例1在我的案例中运行大约50秒(1毫米行) &案例2在20分钟后仍未结束。 我缺少一些基本的东西吗

只是尝试在shell中使用等效scala代码中的管道运行案例2。大约6秒后完成。pyspark shell中同样的事情不会在几分钟内完成


由于通过
sc.parallelize
的文档中的示例确实有效,我认为这不一定是一个bug。也许我遗漏了一些参数?有人经历过类似的事情吗?

你能找到缓慢的原因吗?