Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark apachespark非确定性的根源_Apache Spark_Non Deterministic - Fatal编程技术网

Apache spark apachespark非确定性的根源

Apache spark apachespark非确定性的根源,apache-spark,non-deterministic,Apache Spark,Non Deterministic,我试图找出Spark中非决定论的所有来源。我理解,非确定性可能来自用户提供的函数,例如,在一个映射(f)中,f涉及随机变量。相反,我在寻找可能导致非确定性的操作,无论是在较低级别的转换/操作方面,例如洗牌。在我的脑海中: 需要洗牌(或一般网络流量)的操作可能会以不确定的顺序输出值。它包括诸如groupBy*或join之类的明显案例。一个不太明显的例子是排序后的领带顺序 依赖于不断变化的数据源或可变全局状态的操作 在转换内部执行的副作用,包括累加器更新 您能举一个转换内部副作用的例子吗?与外部系

我试图找出Spark中非决定论的所有来源。我理解,非确定性可能来自用户提供的函数,例如,在一个映射(f)中,f涉及随机变量。相反,我在寻找可能导致非确定性的操作,无论是在较低级别的转换/操作方面,例如洗牌。

在我的脑海中:

  • 需要洗牌(或一般网络流量)的操作可能会以不确定的顺序输出值。它包括诸如
    groupBy*
    join
    之类的明显案例。一个不太明显的例子是排序后的领带顺序

  • 依赖于不断变化的数据源或可变全局状态的操作

  • 在转换内部执行的副作用,包括
    累加器
    更新


您能举一个转换内部副作用的例子吗?与外部系统的通信、写入文件、更新“全局”执行器状态。请不要忘记几乎所有获得时间戳或环境变量的操作,因为它们因节点而异