Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 为什么Null值在删除后仍在列中_Python_Apache Spark_Pyspark_Apache Spark Sql_Pyspark Dataframes - Fatal编程技术网

Python 为什么Null值在删除后仍在列中

Python 为什么Null值在删除后仍在列中,python,apache-spark,pyspark,apache-spark-sql,pyspark-dataframes,Python,Apache Spark,Pyspark,Apache Spark Sql,Pyspark Dataframes,我正在Jupyter笔记本上使用Python PySpark,并试图删除“Age”列中的任何空值 我尝试了这两种方法,但都不起作用: new_df.na.drop(subset=["Age"]) 以下是我目前正在使用的代码: import pyspark.sql.functions as f new_df = new_df.withColumn( "Age", f.when( (f.col("Age") >= 0) & (f.col("Age") &l

我正在Jupyter笔记本上使用Python PySpark,并试图删除“Age”列中的任何空值

我尝试了这两种方法,但都不起作用:

new_df.na.drop(subset=["Age"])
以下是我目前正在使用的代码:

import pyspark.sql.functions as f

new_df = new_df.withColumn(
  "Age",
  f.when(
    (f.col("Age") >= 0) & 
    (f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)

new_df.dropna()
new_df.select('Age').distinct().show(1000, False)
导入pyspark.sql.f函数
new_df=new_df.withColumn(
“年龄”,
f、 什么时候(
(f.col(“年龄”)>=0)和
(f.col(“Age”)将新的dropna()分配给新的ref。
dropna()
处理传入的数据帧并输出新处理的数据帧。这不是就地操作。因此,请按以下方式修改代码-

import pyspark.sql.functions as f

new_df = new_df.withColumn(
  "Age",
  f.when(
    (f.col("Age") >= 0) & 
    (f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)

na_df = new_df.dropna()
na_df.select('Age').distinct().show(1000, False)
ref-

将新的_df.dropna()分配给新的ref。
dropna()
处理传入的数据帧并输出新处理的数据帧。这不是就地操作。因此,请按以下方式修改代码-

import pyspark.sql.functions as f

new_df = new_df.withColumn(
  "Age",
  f.when(
    (f.col("Age") >= 0) & 
    (f.col("Age") <= 95), f.col("Age")).otherwise(f.lit(None))
)

na_df = new_df.dropna()
na_df.select('Age').distinct().show(1000, False)

ref-

new\u df=new\u df.dropna()
new\u df=new\u df.dropna()
谢谢你,它工作得很好,谢谢你的文档。刚刚开始学习PySpark,很多东西与Pandas不同。谢谢你,它工作得很好,谢谢你的文档。刚刚开始学习PySpark,很多东西与Pandas不同。
na_df = new_df.dropna()