Spark[Scala]:自定义转换器中transform和transformSchema方法之间的顺序

Spark[Scala]:自定义转换器中transform和transformSchema方法之间的顺序,scala,apache-spark,Scala,Apache Spark,transform方法对数据帧进行转换,如果模式没有改变,那么我们在transformSchema中返回schema;如果它确实发生了变化,我们需要更新transfromSchema方法的主体。我的问题有两个方面: Spark以什么顺序使用这些方法 我们确实要转换数据帧,是否有一个快捷方式来获取转换后的数据帧并获取transformShema方法的模式,这样我们就不用手动声明了 transform用于链接方法。但是,我没有内存手动更改模式。您是否有示例代码来说明您的观点?我不明白it@BlueS

transform
方法对数据帧进行转换,如果模式没有改变,那么我们在
transformSchema
中返回
schema
;如果它确实发生了变化,我们需要更新
transfromSchema
方法的主体。我的问题有两个方面:

  • Spark以什么顺序使用这些方法
  • 我们确实要转换数据帧,是否有一个快捷方式来获取转换后的数据帧并获取
    transformShema
    方法的模式,这样我们就不用手动声明了

  • transform
    用于链接方法。但是,我没有内存手动更改模式。您是否有示例代码来说明您的观点?我不明白it@BlueSheepToken例如,假设我有一个transformer,在transform方法中,我将所有列的类型都更改为IntegerType。因此,在transformSchema中,我还需要说明什么是transformedSchema(所有int cols)。那么在这里,您点什么菜?transformedSchema方法的用途是什么?我必须拥有它,因为我们扩展了Spark的Transformer。
    transform
    用于链接方法。但是,我没有内存手动更改模式。您是否有示例代码来说明您的观点?我不明白it@BlueSheepToken例如,假设我有一个transformer,在transform方法中,我将所有列的类型都更改为IntegerType。因此,在transformSchema中,我还需要说明什么是transformedSchema(所有int cols)。那么在这里,您点什么菜?transformedSchema方法的用途是什么?我必须拥有它,因为我们扩展了Spark的变压器。