Pyspark-行标准化的电流方法经常超时

Pyspark-行标准化的电流方法经常超时,pyspark,amazon-emr,Pyspark,Amazon Emr,以下是我正在使用的代码: import builtins as p cols = features.columns[1:] features2 = features.withColumn('max', F.array_max(F.array(*[F.col(c) for c in cols]))) for c in cols: features2 = features2.withColumn(c, F.col(c) / F.col('max')) feature_df =

以下是我正在使用的代码:

import builtins as p
cols = features.columns[1:]

features2 = features.withColumn('max', F.array_max(F.array(*[F.col(c) for c in cols]))) 

for c in cols:
    features2 = features2.withColumn(c, F.col(c) / F.col('max'))
    
feature_df = features2.select(features2.columns[1:])
这段代码运行,但似乎总是超时。我感觉每次循环迭代时,计算
max
的代码行都在执行

有没有更有效的方法来运行此代码