Python 3.x 以高性能和面向对象的方式编写Spark ETL作业
在Spark工作中实现高绩效的概念性问题 在ETL工作中, 我正在从数据源(s3或数据库或原始文件)提取阶段创建数据帧 i、 e.Python 3.x 以高性能和面向对象的方式编写Spark ETL作业,python-3.x,apache-spark,pyspark,Python 3.x,Apache Spark,Pyspark,在Spark工作中实现高绩效的概念性问题 在ETL工作中, 我正在从数据源(s3或数据库或原始文件)提取阶段创建数据帧 i、 e.df=提取(配置) 然后在转换阶段,即df_transform=transform(df,configs),我使用多种python方法来转换我的数据帧 i、 e.清理(df),设置不同的条件编辑(df),窗口化功能转换(df),其他状态转换(df) 应用转换后,所有转换函数都将返回df。(即熊猫风格) i、 e def转换(df,config): df=清洁(df)
df=提取(配置)
然后在转换阶段,即df_transform=transform(df,configs),我使用多种python方法来转换我的数据帧
i、 e.清理(df)
,设置不同的条件编辑(df)
,窗口化功能转换(df)
,其他状态转换(df)
应用转换后,所有转换函数都将返回df。(即熊猫风格)
i、 e
def转换(df,config):
df=清洁(df)
df=设置不同的条件编辑(df)
df=窗口化函数变换(df)
df=其他国家信息(df)
返回df