Python 3.x 以高性能和面向对象的方式编写Spark ETL作业_Python 3.x_Apache Spark_Pyspark

Python 3.x 以高性能和面向对象的方式编写Spark ETL作业

python-3.x apache-spark pyspark

Python 3.x 以高性能和面向对象的方式编写Spark ETL作业,python-3.x,apache-spark,pyspark,Python 3.x,Apache Spark,Pyspark,在Spark工作中实现高绩效的概念性问题在ETL工作中，我正在从数据源（s3或数据库或原始文件）提取阶段创建数据帧 i、 e.df=提取（配置）然后在转换阶段，即df_transform=transform（df，configs），我使用多种python方法来转换我的数据帧 i、 e.清理（df），设置不同的条件编辑（df），窗口化功能转换（df），其他状态转换（df）应用转换后，所有转换函数都将返回df。（即熊猫风格） i、 e def转换（df，config）： df=清洁（df）

在Spark工作中实现高绩效的概念性问题

在ETL工作中，我正在从数据源（s3或数据库或原始文件）提取阶段创建数据帧

i、 e.

df=提取（配置）

然后在转换阶段，即df_transform=transform（df，configs），我使用多种python方法来转换我的数据帧

i、 e.

清理（df）

，

设置不同的条件编辑（df）

，

窗口化功能转换（df）

，

其他状态转换（df）

应用转换后，所有转换函数都将返回df。（即熊猫风格）

i、 e

def转换（df，config）：
df=清洁（df）
df=设置不同的条件编辑（df）
df=窗口化函数变换（df）
df=其他国家信息（df）
返回df