Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/19.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Scala apachespark任务排序_Scala_Apache Spark_Bigdata - Fatal编程技术网

Scala apachespark任务排序

Scala apachespark任务排序,scala,apache-spark,bigdata,Scala,Apache Spark,Bigdata,我想知道在Spark的TaskExecution(Scala)中,它是否被迫等待上一个任务完成,然后再继续下一个任务。我观察到一些行为,其中多个连续运行的join语句产生不一致的结果 如果它不等待,有没有办法强迫它 谢谢a)应该用于Apache服务器。b) 你说的下一个任务是什么意思?c) 你能解释一下你所看到的矛盾吗?可能是跟你。把它放在某个上下文中会更容易。感谢您的回复,我基本上得到了一个情况,在这个情况下,我生成了两个RDD,并且正在对它们运行连接。当我在集群上的单个节点上运行它时,它返回

我想知道在Spark的TaskExecution(Scala)中,它是否被迫等待上一个任务完成,然后再继续下一个任务。我观察到一些行为,其中多个连续运行的join语句产生不一致的结果

如果它不等待,有没有办法强迫它


谢谢

a)应该用于Apache服务器。b) 你说的下一个任务是什么意思?c) 你能解释一下你所看到的矛盾吗?可能是跟你。把它放在某个上下文中会更容易。感谢您的回复,我基本上得到了一个情况,在这个情况下,我生成了两个RDD,并且正在对它们运行连接。当我在集群上的单个节点上运行它时,它返回x num个结果,当我在20个节点上运行它时,我得到y num个结果。很抱歉,我没有一个代码示例,从集群转移出去并不是那么容易。简单的回答是-没关系。显然,在计算给定的任务之前必须生成依赖项,否则它可能会在任何其他任务中发生。单个任务甚至可以计算多次。如果您看到不一致的结果,很可能是无效的逻辑,不太可能是一些奇怪的错误。但是如果没有可复制的示例,这里真的没有什么可做的。对不起,我没有编写更详细的代码示例,我只是无法在代码的上下文之外复制它。我已经确定错误是由对ZipWithUniqueID的结果运行联接引起的,所以我假设这会在某个地方引起某种形式的问题。现在我们正在取得进展<代码>ZipWithUniqueID在典型场景中应被视为不确定。它取决于数据分布,并且这可能很容易根据不同的因素而改变。如果您使用
DataFrames
(`monoticallyingying id),则更不可预测。a)应用于Apache服务器。b) 你说的下一个任务是什么意思?c) 你能解释一下你所看到的矛盾吗?可能是跟你。把它放在某个上下文中会更容易。感谢您的回复,我基本上得到了一个情况,在这个情况下,我生成了两个RDD,并且正在对它们运行连接。当我在集群上的单个节点上运行它时,它返回x num个结果,当我在20个节点上运行它时,我得到y num个结果。很抱歉,我没有一个代码示例,从集群转移出去并不是那么容易。简单的回答是-没关系。显然,在计算给定的任务之前必须生成依赖项,否则它可能会在任何其他任务中发生。单个任务甚至可以计算多次。如果您看到不一致的结果,很可能是无效的逻辑,不太可能是一些奇怪的错误。但是如果没有可复制的示例,这里真的没有什么可做的。对不起,我没有编写更详细的代码示例,我只是无法在代码的上下文之外复制它。我已经确定错误是由对ZipWithUniqueID的结果运行联接引起的,所以我假设这会在某个地方引起某种形式的问题。现在我们正在取得进展<代码>ZipWithUniqueID在典型场景中应被视为不确定。它取决于数据分布,并且这可能很容易根据不同的因素而改变。如果您使用
数据帧
(`单调递增的id),它甚至更不可预测。