Python pyspark数据帧中所有列的总零计数

Python pyspark数据帧中所有列的总零计数,python,dataframe,pyspark,Python,Dataframe,Pyspark,我需要找到pyspark数据帧中所有列的零百分比。如何在数据帧中的每列中查找零计数 附言:我尝试过将数据帧转换成熊猫数据帧,并使用了值_计数。但是,对于大型数据集来说,推断其观测值是不可能的。“如何在数据帧中的每列中找到零计数?” 第一: import pyspark.sql.functions as F df_zero = df.select([F.count(F.when(df[c] == 0, c)).alias(c) for c in df.columns]) 第二:然后您可以看到计数

我需要找到pyspark数据帧中所有列的零百分比。如何在数据帧中的每列中查找零计数

附言:我尝试过将数据帧转换成熊猫数据帧,并使用了值_计数。但是,对于大型数据集来说,推断其观测值是不可能的。

“如何在数据帧中的每列中找到零计数?”

第一:

import pyspark.sql.functions as F
df_zero = df.select([F.count(F.when(df[c] == 0, c)).alias(c) for c in df.columns])
第二:然后您可以看到计数(与.show()相比,这提供了更好的视图。速度也没有太大不同):

享受!:)

可能的副本:和
df_zero.limit(2).toPandas().head()