Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark中函数可序列化的原因是什么。?_Apache Spark - Fatal编程技术网

Apache spark Spark中函数可序列化的原因是什么。?

Apache spark Spark中函数可序列化的原因是什么。?,apache-spark,Apache Spark,我想知道Spark中函数可序列化的确切原因,想知道如果可能的话,想知道场景,因为序列化可能出现的问题 据我所知,为了确保seam无副作用的并行处理,而不是发送数据liike命令范式, 函数将被发送到节点并并行处理数据 我的上述想法正确吗。???就我的研究而言,函数式编程是并行处理/并发编程的一个很好的发展方向,所以我认为这就是原因 当我们传递函数时,这是函数可序列化背后的安全原因吗 提前感谢。在Spark中调用RDDAPI时需要序列化闭包作为函数参数的原因是,您需要在驱动程序机器(通常是笔记本电

我想知道Spark中函数可序列化的确切原因,想知道如果可能的话,想知道场景,因为序列化可能出现的问题

据我所知,为了确保seam无副作用的并行处理,而不是发送数据liike命令范式, 函数将被发送到节点并并行处理数据

我的上述想法正确吗。???就我的研究而言,函数式编程是并行处理/并发编程的一个很好的发展方向,所以我认为这就是原因

当我们传递函数时,这是函数可序列化背后的安全原因吗


提前感谢。

在Spark中调用
RDD
API时需要序列化闭包作为函数参数的原因是,您需要在驱动程序机器(通常是笔记本电脑)上编写和定义这些函数,并且需要将这些函数发送给执行者(通常,不是您的笔记本电脑,而是网络中的其他机器)


因此,不管函数式编程中无状态的好处是什么,可序列化性都可以有效地用于通过网络将代码发送到不同的机器上。如果需要,这里是用于处理可序列化性问题的。

函数正在转换为数据,数据正在从Spark驱动程序传递到Spark Workers。这是Spark Workers获取要执行的工作指令的方式。Spark中的函数是一种对象类型,对象需要可序列化,以便可以封送到数据,通过网络传递,并解组回另一端的函数。原因是Spark是一个分布式系统。