使用Spark Arrow在PySpark的工作节点中运行任意python代码
我需要实现一个pyspark应用程序,它可以在工作节点上并行运行一些任意的python函数代码。在读了一些书之后,我想我已经想出了一个使用火花箭的方法,但我想看看是否有人能让我知道这是一个好的游戏计划 上下文: 我在磁盘上有一个按ID分区的数据集。每个分区包含数千条记录。我将要编写的函数需要来自两个ID的数据进行一次计算。我需要同时计算多个ID对的结果。ID不限于一对。换句话说,ID1可以与ID2和ID3两者配对 游戏计划:使用Spark Arrow在PySpark的工作节点中运行任意python代码,python,apache-spark,pyspark,apache-spark-sql,Python,Apache Spark,Pyspark,Apache Spark Sql,我需要实现一个pyspark应用程序,它可以在工作节点上并行运行一些任意的python函数代码。在读了一些书之后,我想我已经想出了一个使用火花箭的方法,但我想看看是否有人能让我知道这是一个好的游戏计划 上下文: 我在磁盘上有一个按ID分区的数据集。每个分区包含数千条记录。我将要编写的函数需要来自两个ID的数据进行一次计算。我需要同时计算多个ID对的结果。ID不限于一对。换句话说,ID1可以与ID2和ID3两者配对 游戏计划: 创建一个包含任意函数输出所需的所有列的数据框。这个数据帧将有N个行(N