Apache spark Spark中函数可序列化的原因是什么。？_Apache Spark

Apache spark Spark中函数可序列化的原因是什么。？

apache-spark

Apache spark Spark中函数可序列化的原因是什么。？,apache-spark,Apache Spark,我想知道Spark中函数可序列化的确切原因，想知道如果可能的话，想知道场景，因为序列化可能出现的问题据我所知，为了确保seam无副作用的并行处理，而不是发送数据liike命令范式，函数将被发送到节点并并行处理数据我的上述想法正确吗。？？？就我的研究而言，函数式编程是并行处理/并发编程的一个很好的发展方向，所以我认为这就是原因当我们传递函数时，这是函数可序列化背后的安全原因吗提前感谢。在Spark中调用RDDAPI时需要序列化闭包作为函数参数的原因是，您需要在驱动程序机器（通常是笔记本电

我想知道Spark中函数可序列化的确切原因，想知道如果可能的话，想知道场景，因为序列化可能出现的问题

据我所知，为了确保seam无副作用的并行处理，而不是发送数据liike命令范式，函数将被发送到节点并并行处理数据

我的上述想法正确吗。？？？就我的研究而言，函数式编程是并行处理/并发编程的一个很好的发展方向，所以我认为这就是原因

当我们传递函数时，这是函数可序列化背后的安全原因吗

提前感谢。

在Spark中调用

RDD

API时需要序列化闭包作为函数参数的原因是，您需要在驱动程序机器（通常是笔记本电脑）上编写和定义这些函数，并且需要将这些函数发送给执行者（通常，不是您的笔记本电脑，而是网络中的其他机器）

因此，不管函数式编程中无状态的好处是什么，可序列化性都可以有效地用于通过网络将代码发送到不同的机器上。如果需要，这里是用于处理可序列化性问题的。

函数正在转换为数据，数据正在从Spark驱动程序传递到Spark Workers。这是Spark Workers获取要执行的工作指令的方式。Spark中的函数是一种对象类型，对象需要可序列化，以便可以封送到数据，通过网络传递，并解组回另一端的函数。原因是Spark是一个分布式系统。