Python 连接Spark Dataframe中包含列表值的列

Python 连接Spark Dataframe中包含列表值的列,python,apache-spark,pyspark,concatenation,spark-dataframe,Python,Apache Spark,Pyspark,Concatenation,Spark Dataframe,我有一个dataframe(spark),它有两列,每列都有列表值。我想创建一个新列,将这两列(以及列中的列表值)连接起来。 例如 列1有一个行值-[a,B] 第2列有一个行值-[C,D] “输出应在新列中,即“ 第3列(新创建的列),行值为-[A、B、C、D] 注意: 列值具有存储在列表中的值 请帮我用pyspark实现这一点。 谢谢我们可以使用自定义项作为 >>> from pyspark.sql import functions as F >>> f

我有一个dataframe(spark),它有两列,每列都有列表值。我想创建一个新列,将这两列(以及列中的列表值)连接起来。 例如

列1有一个行值-[a,B]

第2列有一个行值-[C,D]

“输出应在新列中,即“

第3列(新创建的列),行值为-[A、B、C、D]

注意: 列值具有存储在列表中的值

请帮我用pyspark实现这一点。 谢谢

我们可以使用自定义项作为

 >>> from pyspark.sql import functions as F
 >>> from pyspark.sql.types import *
 >>> udf1 = F.udf(lambda x,y : x+y,ArrayType(StringType()))
 >>> df = df.withColumn('col3',udf1('col1','col2'))