Apache spark apachespark非确定性的根源_Apache Spark_Non Deterministic

Apache spark apachespark非确定性的根源

apache-spark

Apache spark apachespark非确定性的根源,apache-spark,non-deterministic,Apache Spark,Non Deterministic,我试图找出Spark中非决定论的所有来源。我理解，非确定性可能来自用户提供的函数，例如，在一个映射（f）中，f涉及随机变量。相反，我在寻找可能导致非确定性的操作，无论是在较低级别的转换/操作方面，例如洗牌。在我的脑海中：需要洗牌（或一般网络流量）的操作可能会以不确定的顺序输出值。它包括诸如groupBy*或join之类的明显案例。一个不太明显的例子是排序后的领带顺序依赖于不断变化的数据源或可变全局状态的操作在转换内部执行的副作用，包括累加器更新您能举一个转换内部副作用的例子吗？与外部系

我试图找出Spark中非决定论的所有来源。我理解，非确定性可能来自用户提供的函数，例如，在一个映射（f）中，f涉及随机变量。相反，我在寻找可能导致非确定性的操作，无论是在较低级别的转换/操作方面，例如洗牌。

在我的脑海中：

需要洗牌（或一般网络流量）的操作可能会以不确定的顺序输出值。它包括诸如
```
groupBy*
```
或
```
join
```
之类的明显案例。一个不太明显的例子是排序后的领带顺序
依赖于不断变化的数据源或可变全局状态的操作
在转换内部执行的副作用，包括
```
累加器
```
更新

您能举一个转换内部副作用的例子吗？与外部系统的通信、写入文件、更新“全局”执行器状态。请不要忘记几乎所有获得时间戳或环境变量的操作，因为它们因节点而异