Pyspark-行标准化的电流方法经常超时
以下是我正在使用的代码:Pyspark-行标准化的电流方法经常超时,pyspark,amazon-emr,Pyspark,Amazon Emr,以下是我正在使用的代码: import builtins as p cols = features.columns[1:] features2 = features.withColumn('max', F.array_max(F.array(*[F.col(c) for c in cols]))) for c in cols: features2 = features2.withColumn(c, F.col(c) / F.col('max')) feature_df =
import builtins as p
cols = features.columns[1:]
features2 = features.withColumn('max', F.array_max(F.array(*[F.col(c) for c in cols])))
for c in cols:
features2 = features2.withColumn(c, F.col(c) / F.col('max'))
feature_df = features2.select(features2.columns[1:])
这段代码运行,但似乎总是超时。我感觉每次循环迭代时,计算max
的代码行都在执行
有没有更有效的方法来运行此代码