如何在pyspark中自动删除常量列?
我在pyspark中有一个spark数据框,我需要从数据框中删除所有常量列。由于我不知道哪些列是常量,我无法手动取消选择常量列,即我需要一个自动过程。我很惊讶我没能找到一个简单的stackoverflow解决方案 例如:如何在pyspark中自动删除常量列?,pyspark,apache-spark-sql,Pyspark,Apache Spark Sql,我在pyspark中有一个spark数据框,我需要从数据框中删除所有常量列。由于我不知道哪些列是常量,我无法手动取消选择常量列,即我需要一个自动过程。我很惊讶我没能找到一个简单的stackoverflow解决方案 例如: import pandas as pd import pyspark from pyspark.sql.session import SparkSession spark = SparkSession.builder.appName("test").getOrCreate()
import pandas as pd
import pyspark
from pyspark.sql.session import SparkSession
spark = SparkSession.builder.appName("test").getOrCreate()
d = {'col1': [1, 2, 3, 4, 5],
'col2': [1, 2, 3, 4, 5],
'col3': [0, 0, 0, 0, 0],
'col4': [0, 0, 0, 0, 0]}
df_panda = pd.DataFrame(data=d)
df_spark = spark.createDataFrame(df_panda)
df_spark.show()
输出:
+----+----+----+----+
|col1|col2|col3|col4|
+----+----+----+----+
| 1| 1| 0| 0|
| 2| 2| 0| 0|
| 3| 3| 0| 0|
| 4| 4| 0| 0|
| 5| 5| 0| 0|
+----+----+----+----+
期望输出:
+----+----+
|col1|col2|
+----+----+
| 1| 1|
| 2| 2|
| 3| 3|
| 4| 4|
| 5| 5|
+----+----+
在pyspark中自动删除常量列的最佳方法是什么 首先计算每列中的不同值,然后删除仅包含一个不同值的列:
导入pyspark.sql.f函数
cnt=df_spark.agg(*(df_spark.columns中c的f.countDistinct(c).alias(c)).first()
碳纳米管
#行(col1=5,col2=5,col3=1,col4=1)
df_spark.drop(*[c代表cnt.asDict()中的c,如果cnt[c]==1])。show()
+----+----+
|col1 | col2|
+----+----+
| 1| 1|
| 2| 2|
| 3| 3|
| 4| 4|
| 5| 5|
+----+----+