Apache spark Python的Spark列函数

Apache spark Python的Spark列函数,apache-spark,Apache Spark,我读过一些关于spark“列函数”的文章。它们似乎是接受列参数并返回列类型的标准UDF函数。e、 g def removeAllWhitespace(col: Column): Column = { regexp_replace(col, "\\s+", "") } 其中一篇文章指出:“UDF是Spark引擎的黑匣子,而接受列参数并返回列的函数不是Spark的黑匣子。” 上面的例子是Scala。在python中可以用同样的性能优势完成同样的事情吗?从以下位置组合对象: 从pyspark.s

我读过一些关于spark“列函数”的文章。它们似乎是接受列参数并返回列类型的标准UDF函数。e、 g

def removeAllWhitespace(col: Column): Column = {
  regexp_replace(col, "\\s+", "")
}
其中一篇文章指出:“UDF是Spark引擎的黑匣子,而接受列参数并返回列的函数不是Spark的黑匣子。”

上面的例子是Scala。在python中可以用同样的性能优势完成同样的事情吗?

从以下位置组合对象:

从pyspark.sql.functions导入regexp\u replace
def删除所有空格(col):
返回regexp\u replace(列“\\s+”,“”)
用法:

df=spark.createDataFrame([“fo”],“string”)
选择(删除所有空格(“值”))

请解释否决票,以便我可以编辑/澄清问题。