Apache spark apachespark非确定性的根源
我试图找出Spark中非决定论的所有来源。我理解,非确定性可能来自用户提供的函数,例如,在一个映射(f)中,f涉及随机变量。相反,我在寻找可能导致非确定性的操作,无论是在较低级别的转换/操作方面,例如洗牌。在我的脑海中:Apache spark apachespark非确定性的根源,apache-spark,non-deterministic,Apache Spark,Non Deterministic,我试图找出Spark中非决定论的所有来源。我理解,非确定性可能来自用户提供的函数,例如,在一个映射(f)中,f涉及随机变量。相反,我在寻找可能导致非确定性的操作,无论是在较低级别的转换/操作方面,例如洗牌。在我的脑海中: 需要洗牌(或一般网络流量)的操作可能会以不确定的顺序输出值。它包括诸如groupBy*或join之类的明显案例。一个不太明显的例子是排序后的领带顺序 依赖于不断变化的数据源或可变全局状态的操作 在转换内部执行的副作用,包括累加器更新 您能举一个转换内部副作用的例子吗?与外部系
- 需要洗牌(或一般网络流量)的操作可能会以不确定的顺序输出值。它包括诸如
或groupBy*
之类的明显案例。一个不太明显的例子是排序后的领带顺序join
- 依赖于不断变化的数据源或可变全局状态的操作
- 在转换内部执行的副作用,包括
更新累加器