Dataframe 更改Pyspark数据帧列值

Dataframe 更改Pyspark数据帧列值,dataframe,apache-spark,pyspark,Dataframe,Apache Spark,Pyspark,如何更新pyspark数据框列中的所有值 我的数据框上有以下数据。我想在“邮政编码”列中的值前面附加一个“0” +-------+----+-----------+ |地址|州|邮编| +-------+-----+----------+ |A | s1 | 0215| |D | s2 | 5468| |B | s3 | 4789| |E | s4 | 5102| |C | s5 | 9563| +-------+----+-----------+如果zipcode的大小不同,可以使用lpad

如何更新pyspark数据框列中的所有值

我的数据框上有以下数据。我想在“邮政编码”列中的值前面附加一个“0”

+-------+----+-----------+
|地址|州|邮编|
+-------+-----+----------+
|A | s1 | 0215|
|D | s2 | 5468|
|B | s3 | 4789|
|E | s4 | 5102|
|C | s5 | 9563|

+-------+----+-----------+
如果zipcode的大小不同,可以使用
lpad

df.show(假)
// +-------+-----+-------+
//|地址|州| zipcode|
// +-------+-----+-------+
//| A | s1 | 215|
>>> from pyspark.sql.functions import *
>>> df.withColumn("zipcode", concat(lit(0), col("zipcode"))).show()
+-------+-----+-------+
|address|state|zipcode|
+-------+-----+-------+
|      A|   s1|  00215|
|      D|   s2|  05468|
|      B|   s3|  04789|
|      E|   s4|  05102|
|      C|   s5|  09563|
+-------+-----+-------+
+-------+-----+-------+
|address|state|zipcode|
+-------+-----+-------+
|A      |s1   |00215  |
|D      |s2   |05468  |
|B      |s3   |04789  |
|E      |s4   |05102  |
|C      |s5   |09563  |
+-------+-----+-------+