如何在pyspark中自动删除常量列？_Pyspark_Apache Spark Sql

如何在pyspark中自动删除常量列？

pyspark

如何在pyspark中自动删除常量列？,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我在pyspark中有一个spark数据框，我需要从数据框中删除所有常量列。由于我不知道哪些列是常量，我无法手动取消选择常量列，即我需要一个自动过程。我很惊讶我没能找到一个简单的stackoverflow解决方案例如： import pandas as pd import pyspark from pyspark.sql.session import SparkSession spark = SparkSession.builder.appName("test").getOrCreate()

我在pyspark中有一个spark数据框，我需要从数据框中删除所有常量列。由于我不知道哪些列是常量，我无法手动取消选择常量列，即我需要一个自动过程。我很惊讶我没能找到一个简单的stackoverflow解决方案

例如：

import pandas as pd
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()

d = {'col1': [1, 2, 3, 4, 5], 
     'col2': [1, 2, 3, 4, 5],
     'col3': [0, 0, 0, 0, 0],
     'col4': [0, 0, 0, 0, 0]}
df_panda = pd.DataFrame(data=d)
df_spark = spark.createDataFrame(df_panda)
df_spark.show()

输出：

+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
|   1|   1|   0|   0|
|   2|   2|   0|   0|
|   3|   3|   0|   0|
|   4|   4|   0|   0|
|   5|   5|   0|   0|
+----+----+----+----+

期望输出：

+----+----+
|col1|col2|
+----+----+
|   1|   1|
|   2|   2|
|   3|   3|
|   4|   4|
|   5|   5|
+----+----+

在pyspark中自动删除常量列的最佳方法是什么

首先计算每列中的不同值，然后删除仅包含一个不同值的列：

导入pyspark.sql.f函数
cnt=df_spark.agg（*（df_spark.columns中c的f.countDistinct（c）.alias（c））.first（）
碳纳米管
#行（col1=5，col2=5，col3=1，col4=1）
df_spark.drop（*[c代表cnt.asDict（）中的c，如果cnt[c]==1]）。show（）
+----+----+
|col1 | col2|
+----+----+
|   1|   1|
|   2|   2|
|   3|   3|
|   4|   4|
|   5|   5|
+----+----+