Pyspark pysaprk中的Dropna给出0个结果

Pyspark pysaprk中的Dropna给出0个结果,pyspark,pyspark-sql,pyspark-dataframes,Pyspark,Pyspark Sql,Pyspark Dataframes,我在spark中有一个缺少值的数据帧。 我正在尝试删除丢失值超过50%的列 见以下代码: frac = fil_data.count() * .50 print(frac) t_data = fil_data.dropna(thresh=390951) print(t_data.count()) 打印计数为0 为什么会这样? 我们如何解决这个问题 在发布之前我做了一些研究,每个人都使用简单的dropna(how=any或all)而不是threshold注意,dropna总是删除行,而不是列。

我在spark中有一个缺少值的数据帧。 我正在尝试删除丢失值超过50%的列 见以下代码:

frac =  fil_data.count() * .50
print(frac)
t_data = fil_data.dropna(thresh=390951)
print(t_data.count())
打印计数为0 为什么会这样? 我们如何解决这个问题


在发布之前我做了一些研究,每个人都使用简单的dropna(how=any或all)而不是threshold

注意,dropna总是删除行,而不是列。
有关thresh选项的正确使用,请参阅文档:
thresh–int,如果指定,则默认为无,删除小于thresh非空值的行。这将覆盖how参数。

因此,您将删除所有小于390951个非空值的行,这可能是因为我假设您没有400k列