Pandas 使用ArrayType列将UDF重写为UDF
我正在尝试将UDF重写为熊猫UDF 但是,当涉及到包含ArrayType的列时。我正在努力寻找正确的解决办法 我有一个数据帧,如下所示:Pandas 使用ArrayType列将UDF重写为UDF,pandas,apache-spark,pyspark,user-defined-functions,Pandas,Apache Spark,Pyspark,User Defined Functions,我正在尝试将UDF重写为熊猫UDF 但是,当涉及到包含ArrayType的列时。我正在努力寻找正确的解决办法 我有一个数据帧,如下所示: +-----------+--------------------+ | genre| ids| +-----------+--------------------+ | Crime|[6, 22, 42, 47, 5...| | Romance|[3, 7, 11, 15, 17...| | Th
+-----------+--------------------+
| genre| ids|
+-----------+--------------------+
| Crime|[6, 22, 42, 47, 5...|
| Romance|[3, 7, 11, 15, 17...|
| Thriller|[6, 10, 16, 18, 2...|
| Adventure|[2, 8, 10, 15, 29...|
| Children|[1, 2, 8, 13, 34,...|
| Drama|[4, 11, 14, 16, 1...|
| War|[41, 110, 151, 15...|
|Documentary|[37, 77, 99, 108,...|
| Fantasy|[2, 56, 60, 126, ...|
| Mystery|[59, 113, 123, 16...|
+-----------+--------------------+
以下UDF运行良好:
pairs_udf = udf(lambda x: itertools.combinations(x, 2), transformer.schema)
df = df.select("genre", pairs_udf("ids").alias("ids"))
输出如下所示:
+-----------+--------------------+
| genre| ids|
+-----------+--------------------+
| Crime|[[6, 22], [6, 42]...|
| Romance|[[3, 7], [3, 11],...|
| Thriller|[[6, 10], [6, 16]...|
| Adventure|[[2, 8], [2, 10],...|
| Children|[[1, 2], [1, 8], ...|
| Drama|[[4, 11], [4, 14]...|
| War|[[41, 110], [41, ...|
|Documentary|[[37, 77], [37, 9...|
| Fantasy|[[2, 56], [2, 60]...|
| Mystery|[[59, 113], [59, ...|
+-----------+--------------------+
但是,在pandas udf
中编写函数时,什么是等效的
PS:我理解,或者,我可以使用交叉连接来实现相同的结果
但是,我更好奇的是pandas udf如何处理ArrayType列。我将在这里分享我的发现: 要使熊猫udf在您的项目中发挥作用,有三个方面: 1.使用UDF,或者更准确地说,Apache Arrow不支持普通UDF所支持的复杂类型。(从
pyspark 3.0.1
,pyarrow 2.0.0
)
e、 g:
- udf支持
ArrayType(StringType())
- 不支持数组类型(StructType([…])。 您可以查看更多:
java.lang.UnsupportedOperationException
3.确保将虚拟环境python路径添加到pyspark\u python
i、 e。
environ['PYSPARK\u PYTHON']='./your/virtual/environment/path'
可能类似于lambda row:row.apply(lambda x:itertools.compositions(x,2))
谢谢,@mck,这是我的一次尝试。现在我认为我遇到的问题与java.lang.UnsupportedOperationException有关:sun.misc.Unsafe或java.nio.DirectByteBuffer.(long,int)不可用
。经过几次谷歌搜索后,它似乎与Java11和SparkArrow支持有关。这可能属于一个单独的问题。
spark.driver.extraJavaOptions='-Dio.netty.tryReflectionSetAccessible=true'
spark.executor.extraJavaOptions='-Dio.netty.tryReflectionSetAccessible=true'