直接将PySpark RDD转换为Arrow表

直接将PySpark RDD转换为Arrow表,pyspark,pyarrow,apache-arrow,Pyspark,Pyarrow,Apache Arrow,我正在映射我的PySpark RDD分区,并在所有分区上运行一个函数query.rdd.mapPartitions(proc.collect() 在函数内部,我需要箭头表结构中的数据。到目前为止,我发现实现这一点的唯一方法是分两步进行: pds = pd.DataFrame(list(rdds)) pat = pyarrow.Table.from_pandas(pds) 大约三年前,有人问了一个类似的问题,但重点是Scala,但当时给出的答案是,您还不能真正用Java实现它。 我想避免这个额

我正在映射我的PySpark RDD分区,并在所有分区上运行一个函数
query.rdd.mapPartitions(proc.collect()

在函数内部,我需要箭头表结构中的数据。到目前为止,我发现实现这一点的唯一方法是分两步进行:

pds = pd.DataFrame(list(rdds))
pat = pyarrow.Table.from_pandas(pds)
大约三年前,有人问了一个类似的问题,但重点是Scala,但当时给出的答案是,您还不能真正用Java实现它。

我想避免这个额外的转换步骤,但我不知道有任何现有函数可以让我跳过它。有没有一种方法可以更快速地将RDD(或者如果我稍微调整一下结构,一个PySpark数据帧)直接转换为箭头表