Dataframe 更改Pyspark数据帧列值
如何更新pyspark数据框列中的所有值 我的数据框上有以下数据。我想在“邮政编码”列中的值前面附加一个“0”Dataframe 更改Pyspark数据帧列值,dataframe,apache-spark,pyspark,Dataframe,Apache Spark,Pyspark,如何更新pyspark数据框列中的所有值 我的数据框上有以下数据。我想在“邮政编码”列中的值前面附加一个“0” +-------+----+-----------+ |地址|州|邮编| +-------+-----+----------+ |A | s1 | 0215| |D | s2 | 5468| |B | s3 | 4789| |E | s4 | 5102| |C | s5 | 9563| +-------+----+-----------+如果zipcode的大小不同,可以使用lpad
+-------+----+-----------+
|地址|州|邮编|
+-------+-----+----------+
|A | s1 | 0215|
|D | s2 | 5468|
|B | s3 | 4789|
|E | s4 | 5102|
|C | s5 | 9563|
+-------+----+-----------+
如果zipcode的大小不同,可以使用lpad
df.show(假)
// +-------+-----+-------+
//|地址|州| zipcode|
// +-------+-----+-------+
//| A | s1 | 215|
>>> from pyspark.sql.functions import *
>>> df.withColumn("zipcode", concat(lit(0), col("zipcode"))).show()
+-------+-----+-------+
|address|state|zipcode|
+-------+-----+-------+
| A| s1| 00215|
| D| s2| 05468|
| B| s3| 04789|
| E| s4| 05102|
| C| s5| 09563|
+-------+-----+-------+
+-------+-----+-------+
|address|state|zipcode|
+-------+-----+-------+
|A |s1 |00215 |
|D |s2 |05468 |
|B |s3 |04789 |
|E |s4 |05102 |
|C |s5 |09563 |
+-------+-----+-------+