Apache spark PySpark性能数据帧/向量与Numpy阵列_Apache Spark_Pyspark_Apache Spark Sql_Numpy Ndarray_Pyspark Dataframes

Apache spark PySpark性能数据帧/向量与Numpy阵列

apache-spark pyspark

Apache spark PySpark性能数据帧/向量与Numpy阵列,apache-spark,pyspark,apache-spark-sql,numpy-ndarray,pyspark-dataframes,Apache Spark,Pyspark,Apache Spark Sql,Numpy Ndarray,Pyspark Dataframes,我的项目包括目前在UDF中执行的numpy阵列和numpy矩阵之间的许多操作，您认为如果我们使用PySpark中的内部结构，性能会有所提高吗？（矩阵-->数据帧，numpy数组-->密集向量）谢谢大家! UDF通常比处理DataFrame API的pyspark.sql.functions慢，由于序列化-反序列化开销，通常应尽量避免这些您是否考虑过使用pandas\u udf？是的，但我的意思是，在示例密集向量中使用，而不是在udf中使用numpy数组，有什么优势吗？因为对我来说，避免使用

我的项目包括目前在UDF中执行的numpy阵列和numpy矩阵之间的许多操作，您认为如果我们使用PySpark中的内部结构，性能会有所提高吗？（矩阵-->数据帧，numpy数组-->密集向量）

谢谢大家!

UDF通常比处理DataFrame API的

pyspark.sql.functions

慢，由于序列化-反序列化开销，通常应尽量避免这些

您是否考虑过使用

pandas\u udf

？是的，但我的意思是，在示例密集向量中使用，而不是在udf中使用numpy数组，有什么优势吗？因为对我来说，避免使用UDF是不可能的