Python 3.x 以高性能和面向对象的方式编写Spark ETL作业

Python 3.x 以高性能和面向对象的方式编写Spark ETL作业,python-3.x,apache-spark,pyspark,Python 3.x,Apache Spark,Pyspark,在Spark工作中实现高绩效的概念性问题 在ETL工作中, 我正在从数据源(s3或数据库或原始文件)提取阶段创建数据帧 i、 e.df=提取(配置) 然后在转换阶段,即df_transform=transform(df,configs),我使用多种python方法来转换我的数据帧 i、 e.清理(df),设置不同的条件编辑(df),窗口化功能转换(df),其他状态转换(df) 应用转换后,所有转换函数都将返回df。(即熊猫风格) i、 e def转换(df,config): df=清洁(df)

在Spark工作中实现高绩效的概念性问题

在ETL工作中, 我正在从数据源(s3或数据库或原始文件)提取阶段创建数据帧

i、 e.
df=提取(配置)

然后在转换阶段,即df_transform=transform(df,configs),我使用多种python方法来转换我的数据帧

i、 e.
清理(df)
设置不同的条件编辑(df)
窗口化功能转换(df)
其他状态转换(df)

应用转换后,所有转换函数都将返回df。(即熊猫风格)

i、 e

def转换(df,config):
df=清洁(df)
df=设置不同的条件编辑(df)
df=窗口化函数变换(df)
df=其他国家信息(df)
返回df