Apache spark PySpark性能数据帧/向量与Numpy阵列

Apache spark PySpark性能数据帧/向量与Numpy阵列,apache-spark,pyspark,apache-spark-sql,numpy-ndarray,pyspark-dataframes,Apache Spark,Pyspark,Apache Spark Sql,Numpy Ndarray,Pyspark Dataframes,我的项目包括目前在UDF中执行的numpy阵列和numpy矩阵之间的许多操作,您认为如果我们使用PySpark中的内部结构,性能会有所提高吗? (矩阵-->数据帧,numpy数组-->密集向量) 谢谢大家! UDF通常比处理DataFrame API的pyspark.sql.functions慢,由于序列化-反序列化开销,通常应尽量避免这些 您是否考虑过使用pandas\u udf?是的,但我的意思是,在示例密集向量中使用,而不是在udf中使用numpy数组,有什么优势吗?因为对我来说,避免使用

我的项目包括目前在UDF中执行的numpy阵列和numpy矩阵之间的许多操作,您认为如果我们使用PySpark中的内部结构,性能会有所提高吗? (矩阵-->数据帧,numpy数组-->密集向量)
谢谢大家!

UDF通常比处理DataFrame API的
pyspark.sql.functions
慢,由于序列化-反序列化开销,通常应尽量避免这些


您是否考虑过使用
pandas\u udf
?是的,但我的意思是,在示例密集向量中使用,而不是在udf中使用numpy数组,有什么优势吗?因为对我来说,避免使用UDF是不可能的