Python pyspark数据帧中所有列的总零计数
我需要找到pyspark数据帧中所有列的零百分比。如何在数据帧中的每列中查找零计数 附言:我尝试过将数据帧转换成熊猫数据帧,并使用了值_计数。但是,对于大型数据集来说,推断其观测值是不可能的。“如何在数据帧中的每列中找到零计数?” 第一:Python pyspark数据帧中所有列的总零计数,python,dataframe,pyspark,Python,Dataframe,Pyspark,我需要找到pyspark数据帧中所有列的零百分比。如何在数据帧中的每列中查找零计数 附言:我尝试过将数据帧转换成熊猫数据帧,并使用了值_计数。但是,对于大型数据集来说,推断其观测值是不可能的。“如何在数据帧中的每列中找到零计数?” 第一: import pyspark.sql.functions as F df_zero = df.select([F.count(F.when(df[c] == 0, c)).alias(c) for c in df.columns]) 第二:然后您可以看到计数
import pyspark.sql.functions as F
df_zero = df.select([F.count(F.when(df[c] == 0, c)).alias(c) for c in df.columns])
第二:然后您可以看到计数(与.show()相比,这提供了更好的视图。速度也没有太大不同):
享受!:) 可能的副本:和
df_zero.limit(2).toPandas().head()