Python 根据现有列与pyspark的交互，向dataframe添加新列_Python_Dataframe_Pyspark

Python 根据现有列与pyspark的交互，向dataframe添加新列

python dataframe pyspark

Python 根据现有列与pyspark的交互，向dataframe添加新列,python,dataframe,pyspark,Python,Dataframe,Pyspark,我有一个由两列组成的数据框架 +--------------+------------+ | A| B| +--------------+------------+ | [b, c]| [a, b, c]| | [a]| [c, d]| | [a, c]| [b, c, e]| | [b, c]| [a, b]| | [a]| [a, d,

我有一个由两列组成的数据框架

+--------------+------------+
|             A|           B|
+--------------+------------+
|       [b,  c]|   [a, b, c]|
|           [a]|      [c, d]|
|       [a,  c]|   [b, c, e]|
|       [b,  c]|      [a, b]|
|           [a]|   [a, d, e]|
|       [a,  c]|         [b]|
+--------------+------------+

模式：

 |-- A: string (nullable = true)
 |-- B: array (nullable = true)
 |    |-- element: string (containsNull = true)

我想添加一个新列，如果a和B的交集为空列表[]，则该列必须为O，否则为1。我尝试了下面的代码，但似乎根本不正确

df.withColumn('Check', when (list((set(col('A'))&set(col('B')))) !=[] , 0).otherwise(1)).show()

谢谢你的帮助

我想添加一个新列，如果a和B的交集为空列表[]，则该列必须为O，否则为1

您可以直接使用array_intersect with size和when+，否则

或：

我想添加一个新列，如果a和B的交集为空列表[]，则该列必须为O，否则为1

您可以直接使用array_intersect with size和when+，否则

或：

谢谢你的回答。但是，它向我显示以下消息数组：由于数据类型不匹配，无法解析“array\u intersectvalues，values2”。是否在列或字符串中共享这些数组？你能打印模式并在问题正文中发表吗？是的，这是我的错，因为A列是字符串。我必须把它转换成列表。感谢you@Mus不用担心，像这样的东西可能会帮助你，或者如果你控制输入，在消费前改变类型，那就太好了：谢谢你的回答。但是，它向我显示以下消息数组：由于数据类型不匹配，无法解析“array\u intersectvalues，values2”。是否在列或字符串中共享这些数组？你能打印模式并在问题正文中发表吗？是的，这是我的错，因为A列是字符串。我必须把它转换成列表。感谢you@Mus不必担心这样的事情可能会对你有所帮助，或者如果你能控制输入并在消费前更改类型，那就太好了：

import pyspark.sql.functions as F
df.withColumn("Check",(F.size(F.array_intersect("A","B"))!=0).cast("Integer")).show()

df.withColumn("Check",F.when(F.size(F.array_intersect("A","B"))==0,0).otherwise(1)).show()

+------+---------+-----+
|     A|        B|Check|
+------+---------+-----+
|[b, c]|[a, b, c]|    1|
|   [a]|   [c, d]|    0|
|[a, c]|[b, c, e]|    1|
|[b, c]|   [a, b]|    1|
|   [a]|[a, d, e]|    1|
|[a, c]|      [b]|    0|
+------+---------+-----+