Python 将UDF后的新列追加到现有PySpark数据帧
我有下面的dataframe示例Python 将UDF后的新列追加到现有PySpark数据帧,python,dataframe,merge,pyspark,bigdata,Python,Dataframe,Merge,Pyspark,Bigdata,我有下面的dataframe示例 +-------+--------+--------+--------+ | data1 | data 2 | data 3 | data 4 | +-------+--------+--------+--------+ |1 |abc |abd |3 | +-------+--------+--------+--------+ |3 |abd |abd |3 | +-------+--
+-------+--------+--------+--------+
| data1 | data 2 | data 3 | data 4 |
+-------+--------+--------+--------+
|1 |abc |abd |3 |
+-------+--------+--------+--------+
|3 |abd |abd |3 |
+-------+--------+--------+--------+
|2 |abe |abg |2 |
例如,我正在应用一个UDF,它将数据4转换为True
if 3和False
if 2
我使用以下代码生成一个独立的数据帧,其中包含列中的新旧值:
UDF = udf(converterFnc,StringType())
tempDF = mydata.select('data 4', UDF('data 4').alias('newdata 4'))
并获取以下数据帧:
+--------+-----------+
| data 4 | newdata 4 |
+--------+-----------+
| 3 | True |
+--------+-----------+
| 2 | False |
我试图找出如何将其合并回原始数据帧,但我发现使用join
时遇到了一个奇怪的问题,在这个问题中,所有连接的值都只是整个数据帧的第一个值
+-------+--------+--------+--------+
| data1 | data 2 | data 3 | data 4 |
+-------+--------+--------+--------+
|1 |abc |abd |3 |
+-------+--------+--------+--------+
|3 |abd |abd |3 |
+-------+--------+--------+--------+
|2 |abe |abg |2 |
我的期望输出:
+-------+--------+--------+--------+-----------+
| data1 | data 2 | data 3 | data 4 | newdata 4 |
+-------+--------+--------+--------+-----------+
|1 |abc |abd |3 | True |
+-------+--------+--------+--------+-----------+
|3 |abd |abd |3 | True |
+-------+--------+--------+--------+-----------+
|2 |abe |abg |2 | False |
谢谢大家! 您可以使用
with column
和when。否则
在不加入过程的情况下创建新列:
import pyspark.sql.functions as F
df.withColumn("newdata 4", F.when(df["data 4"] == 3, True).otherwise(F.when(df["data 4"] == 2, False))).show()
+-----+------+------+------+---------+
|data1|data 2|data 3|data 4|newdata 4|
+-----+------+------+------+---------+
| 1| abc| abd| 3| true|
| 3| abd| abd| 3| true|
| 2| abe| abg| 2| false|
+-----+------+------+------+---------+
谢谢我的方法比一个简单的True/False
分类器要复杂一些,但是withColumn
方法我能够让它工作!酷。很高兴有帮助!