Apache spark Python的Spark列函数_Apache Spark

Apache spark Python的Spark列函数

apache-spark

Apache spark Python的Spark列函数,apache-spark,Apache Spark,我读过一些关于spark“列函数”的文章。它们似乎是接受列参数并返回列类型的标准UDF函数。e、 g def removeAllWhitespace(col: Column): Column = { regexp_replace(col, "\\s+", "") } 其中一篇文章指出：“UDF是Spark引擎的黑匣子，而接受列参数并返回列的函数不是Spark的黑匣子。” 上面的例子是Scala。在python中可以用同样的性能优势完成同样的事情吗？从以下位置组合对象：从pyspark.s

我读过一些关于spark“列函数”的文章。它们似乎是接受列参数并返回列类型的标准UDF函数。e、 g

def removeAllWhitespace(col: Column): Column = {
  regexp_replace(col, "\\s+", "")
}

其中一篇文章指出：“UDF是Spark引擎的黑匣子，而接受列参数并返回列的函数不是Spark的黑匣子。”

上面的例子是Scala。在python中可以用同样的性能优势完成同样的事情吗？

从以下位置组合对象：

从pyspark.sql.functions导入regexp\u replace
def删除所有空格（col）：
返回regexp\u replace（列“\\s+”，“”）

用法：

df=spark.createDataFrame（[“fo”]，“string”）
选择（删除所有空格（“值”））

请解释否决票，以便我可以编辑/澄清问题。