Pyspark管道自定义变压器

Pyspark管道自定义变压器,pyspark,transformer,Pyspark,Transformer,我在理解为Pyspark管道创建自定义变压器时遇到了一些问题 我正在编写一个自定义转换器,它将采用数据帧列Company并删除多余的逗号: from pyspark.sql.functions import * class DFCommaDropper(Transformer): def__init__(self, *args, **kwargs): self.name = CommaDropper def transform(self,df):

我在理解为Pyspark管道创建自定义变压器时遇到了一些问题

我正在编写一个自定义转换器,它将采用数据帧列
Company
并删除多余的逗号:

from pyspark.sql.functions import *

class DFCommaDropper(Transformer):

    def__init__(self, *args, **kwargs):
        self.name = CommaDropper

    def transform(self,df):
        df = df.withColumn('Company', regexp_replace('Company',',','')
        return df
上面的代码显然是错误的。我不确定如何初始化它,以及如何在转换函数中使用初始化的类实例

提前感谢您的帮助