Scala apachespark任务排序_Scala_Apache Spark_Bigdata

Scala apachespark任务排序

scala apache-spark

Scala apachespark任务排序,scala,apache-spark,bigdata,Scala,Apache Spark,Bigdata,我想知道在Spark的TaskExecution（Scala）中，它是否被迫等待上一个任务完成，然后再继续下一个任务。我观察到一些行为，其中多个连续运行的join语句产生不一致的结果如果它不等待，有没有办法强迫它谢谢a）应该用于Apache服务器。b）你说的下一个任务是什么意思？c）你能解释一下你所看到的矛盾吗？可能是跟你。把它放在某个上下文中会更容易。感谢您的回复，我基本上得到了一个情况，在这个情况下，我生成了两个RDD，并且正在对它们运行连接。当我在集群上的单个节点上运行它时，它返回

我想知道在Spark的TaskExecution（Scala）中，它是否被迫等待上一个任务完成，然后再继续下一个任务。我观察到一些行为，其中多个连续运行的join语句产生不一致的结果

如果它不等待，有没有办法强迫它

谢谢

a）应该用于Apache服务器。b）你说的下一个任务是什么意思？c）你能解释一下你所看到的矛盾吗？可能是跟你。把它放在某个上下文中会更容易。感谢您的回复，我基本上得到了一个情况，在这个情况下，我生成了两个RDD，并且正在对它们运行连接。当我在集群上的单个节点上运行它时，它返回x num个结果，当我在20个节点上运行它时，我得到y num个结果。很抱歉，我没有一个代码示例，从集群转移出去并不是那么容易。简单的回答是-没关系。显然，在计算给定的任务之前必须生成依赖项，否则它可能会在任何其他任务中发生。单个任务甚至可以计算多次。如果您看到不一致的结果，很可能是无效的逻辑，不太可能是一些奇怪的错误。但是如果没有可复制的示例，这里真的没有什么可做的。对不起，我没有编写更详细的代码示例，我只是无法在代码的上下文之外复制它。我已经确定错误是由对ZipWithUniqueID的结果运行联接引起的，所以我假设这会在某个地方引起某种形式的问题。现在我们正在取得进展<代码>ZipWithUniqueID在典型场景中应被视为不确定。它取决于数据分布，并且这可能很容易根据不同的因素而改变。如果您使用

DataFrames

（`monoticallyingying id），则更不可预测。a）应用于Apache服务器。b）你说的下一个任务是什么意思？c）你能解释一下你所看到的矛盾吗？可能是跟你。把它放在某个上下文中会更容易。感谢您的回复，我基本上得到了一个情况，在这个情况下，我生成了两个RDD，并且正在对它们运行连接。当我在集群上的单个节点上运行它时，它返回x num个结果，当我在20个节点上运行它时，我得到y num个结果。很抱歉，我没有一个代码示例，从集群转移出去并不是那么容易。简单的回答是-没关系。显然，在计算给定的任务之前必须生成依赖项，否则它可能会在任何其他任务中发生。单个任务甚至可以计算多次。如果您看到不一致的结果，很可能是无效的逻辑，不太可能是一些奇怪的错误。但是如果没有可复制的示例，这里真的没有什么可做的。对不起，我没有编写更详细的代码示例，我只是无法在代码的上下文之外复制它。我已经确定错误是由对ZipWithUniqueID的结果运行联接引起的，所以我假设这会在某个地方引起某种形式的问题。现在我们正在取得进展<代码>ZipWithUniqueID在典型场景中应被视为不确定。它取决于数据分布，并且这可能很容易根据不同的因素而改变。如果您使用

数据帧（`单调递增的id），它甚至更不可预测。