Apache spark Python的Spark列函数
我读过一些关于spark“列函数”的文章。它们似乎是接受列参数并返回列类型的标准UDF函数。e、 gApache spark Python的Spark列函数,apache-spark,Apache Spark,我读过一些关于spark“列函数”的文章。它们似乎是接受列参数并返回列类型的标准UDF函数。e、 g def removeAllWhitespace(col: Column): Column = { regexp_replace(col, "\\s+", "") } 其中一篇文章指出:“UDF是Spark引擎的黑匣子,而接受列参数并返回列的函数不是Spark的黑匣子。” 上面的例子是Scala。在python中可以用同样的性能优势完成同样的事情吗?从以下位置组合对象: 从pyspark.s
def removeAllWhitespace(col: Column): Column = {
regexp_replace(col, "\\s+", "")
}
其中一篇文章指出:“UDF是Spark引擎的黑匣子,而接受列参数并返回列的函数不是Spark的黑匣子。”
上面的例子是Scala。在python中可以用同样的性能优势完成同样的事情吗?从以下位置组合对象:
从pyspark.sql.functions导入regexp\u replace
def删除所有空格(col):
返回regexp\u replace(列“\\s+”,“”)
用法:
df=spark.createDataFrame([“fo”],“string”)
选择(删除所有空格(“值”))
请解释否决票,以便我可以编辑/澄清问题。