Python 为什么Null值在删除后仍在列中
我正在Jupyter笔记本上使用Python PySpark,并试图删除“Age”列中的任何空值 我尝试了这两种方法,但都不起作用:Python 为什么Null值在删除后仍在列中,python,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,我正在Jupyter笔记本上使用Python PySpark,并试图删除“Age”列中的任何空值 我尝试了这两种方法,但都不起作用: new_df.na.drop(subset=["Age"]) 以下是我目前正在使用的代码: import pyspark.sql.functions as f new_df = new_df.withColumn( "Age", f.when( (f.col("Age") >= 0) & (f.col("Age") &l
new_df.na.drop(subset=["Age"])
以下是我目前正在使用的代码:
import pyspark.sql.functions as f
new_df = new_df.withColumn(
"Age",
f.when(
(f.col("Age") >= 0) &
(f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)
new_df.dropna()
new_df.select('Age').distinct().show(1000, False)
导入pyspark.sql.f函数
new_df=new_df.withColumn(
“年龄”,
f、 什么时候(
(f.col(“年龄”)>=0)和
(f.col(“Age”)将新的dropna()分配给新的ref。
dropna()
处理传入的数据帧并输出新处理的数据帧。这不是就地操作。因此,请按以下方式修改代码-
import pyspark.sql.functions as f
new_df = new_df.withColumn(
"Age",
f.when(
(f.col("Age") >= 0) &
(f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)
na_df = new_df.dropna()
na_df.select('Age').distinct().show(1000, False)
ref-将新的_df.dropna()分配给新的ref。
dropna()
处理传入的数据帧并输出新处理的数据帧。这不是就地操作。因此,请按以下方式修改代码-
import pyspark.sql.functions as f
new_df = new_df.withColumn(
"Age",
f.when(
(f.col("Age") >= 0) &
(f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)
na_df = new_df.dropna()
na_df.select('Age').distinct().show(1000, False)
ref-new\u df=new\u df.dropna()
new\u df=new\u df.dropna()
谢谢你,它工作得很好,谢谢你的文档。刚刚开始学习PySpark,很多东西与Pandas不同。谢谢你,它工作得很好,谢谢你的文档。刚刚开始学习PySpark,很多东西与Pandas不同。
na_df = new_df.dropna()