Apache spark apachespark:Python函数自动序列化

Apache spark apachespark:Python函数自动序列化,apache-spark,pyspark,Apache Spark,Pyspark,我正在浏览ApacheSpark文档。他说: …我们可以将Python函数传递给Spark,它会自动 与它们引用的任何变量一起序列化 我不完全明白这意味着什么。它必须做一些RDD类型的事情吗 在spark的上下文中,它意味着什么 使用PySpark时需要,因为您在本地定义的函数需要在每个工作节点上远程执行。这个概念实际上与RDD类型无关

我正在浏览ApacheSpark文档。他说:

…我们可以将Python函数传递给Spark,它会自动 与它们引用的任何变量一起序列化

我不完全明白这意味着什么。它必须做一些RDD类型的事情吗

在spark的上下文中,它意味着什么

使用PySpark时需要,因为您在本地定义的函数需要在每个工作节点上远程执行。这个概念实际上与RDD类型无关