Python 为什么Null值在删除后仍在列中_Python_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Dataframes

Python 为什么Null值在删除后仍在列中

python apache-spark pyspark

Python 为什么Null值在删除后仍在列中,python,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,我正在Jupyter笔记本上使用Python PySpark，并试图删除“Age”列中的任何空值我尝试了这两种方法，但都不起作用： new_df.na.drop(subset=["Age"]) 以下是我目前正在使用的代码： import pyspark.sql.functions as f new_df = new_df.withColumn( "Age", f.when( (f.col("Age") >= 0) & (f.col("Age") &l

我正在Jupyter笔记本上使用Python PySpark，并试图删除“Age”列中的任何空值

我尝试了这两种方法，但都不起作用：

new_df.na.drop(subset=["Age"])

以下是我目前正在使用的代码：

import pyspark.sql.functions as f

new_df = new_df.withColumn(
  "Age",
  f.when(
    (f.col("Age") >= 0) & 
    (f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)

new_df.dropna()
new_df.select('Age').distinct().show(1000, False)

导入pyspark.sql.f函数
new_df=new_df.withColumn(
“年龄”，
f、 什么时候(
（f.col（“年龄”）>=0）和
（f.col（“Age”）将新的dropna（）分配给新的ref。
dropna（）
处理传入的数据帧并输出新处理的数据帧。这不是就地操作。因此，请按以下方式修改代码-
import pyspark.sql.functions as f

new_df = new_df.withColumn(
  "Age",
  f.when(
    (f.col("Age") >= 0) & 
    (f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)

na_df = new_df.dropna()
na_df.select('Age').distinct().show(1000, False)

ref-将新的_df.dropna（）分配给新的ref。
dropna（）
处理传入的数据帧并输出新处理的数据帧。这不是就地操作。因此，请按以下方式修改代码-
import pyspark.sql.functions as f

new_df = new_df.withColumn(
  "Age",
  f.when(
    (f.col("Age") >= 0) & 
    (f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)

na_df = new_df.dropna()
na_df.select('Age').distinct().show(1000, False)

ref-
new\u df=new\u df.dropna（）
new\u df=new\u df.dropna（）谢谢你，它工作得很好，谢谢你的文档。刚刚开始学习PySpark，很多东西与Pandas不同。谢谢你，它工作得很好，谢谢你的文档。刚刚开始学习PySpark，很多东西与Pandas不同。
na_df = new_df.dropna()