直接将PySpark RDD转换为Arrow表_Pyspark_Pyarrow_Apache Arrow

直接将PySpark RDD转换为Arrow表

pyspark

直接将PySpark RDD转换为Arrow表,pyspark,pyarrow,apache-arrow,Pyspark,Pyarrow,Apache Arrow,我正在映射我的PySpark RDD分区，并在所有分区上运行一个函数query.rdd.mapPartitions（proc.collect（）在函数内部，我需要箭头表结构中的数据。到目前为止，我发现实现这一点的唯一方法是分两步进行： pds = pd.DataFrame(list(rdds)) pat = pyarrow.Table.from_pandas(pds) 大约三年前，有人问了一个类似的问题，但重点是Scala，但当时给出的答案是，您还不能真正用Java实现它。我想避免这个额

我正在映射我的PySpark RDD分区，并在所有分区上运行一个函数

query.rdd.mapPartitions（proc.collect（）

在函数内部，我需要箭头表结构中的数据。到目前为止，我发现实现这一点的唯一方法是分两步进行：

pds = pd.DataFrame(list(rdds))
pat = pyarrow.Table.from_pandas(pds)

大约三年前，有人问了一个类似的问题，但重点是Scala，但当时给出的答案是，您还不能真正用Java实现它。

我想避免这个额外的转换步骤，但我不知道有任何现有函数可以让我跳过它。有没有一种方法可以更快速地将RDD（或者如果我稍微调整一下结构，一个PySpark数据帧）直接转换为箭头表