Apache spark 计算pyspark数据帧中的列数？_Apache Spark_Machine Learning_Pyspark_Pyspark Sql

Apache spark 计算pyspark数据帧中的列数？

apache-spark machine-learning pyspark

Apache spark 计算pyspark数据帧中的列数？,apache-spark,machine-learning,pyspark,pyspark-sql,Apache Spark,Machine Learning,Pyspark,Pyspark Sql,我有一个15列的数据框架（4个分类列，其余为数字列）我为每个分类变量创建了虚拟变量。现在我想在我的新数据框中找到变量的数量我试图计算printSchema（）的长度，但是NoneType： print type(df.printSchema()) 您发现方法不对，下面是关于此和printSchema的示例：- df = sqlContext.createDataFrame([ (1, "A", "X1"), (2, "B", "X2"), (3, "B", "X3"

我有一个15列的数据框架（4个分类列，其余为数字列）

我为每个分类变量创建了虚拟变量。现在我想在我的新数据框中找到变量的数量

我试图计算

printSchema（）

的长度，但是

NoneType

：

print type(df.printSchema())

您发现方法不对，下面是关于此和printSchema的示例：-

df = sqlContext.createDataFrame([
    (1, "A", "X1"),
    (2, "B", "X2"),
    (3, "B", "X3"),
    (1, "B", "X3"),
    (2, "C", "X2"),
    (3, "C", "X2"),
    (1, "C", "X1"),
    (1, "B", "X1"),
], ["ID", "TYPE", "CODE"])


# Python 2:
print len(df.columns) #3
# Python 3
print(len(df.columns)) #3

columns

提供了所有列的列表，我们可以检查len。相反，

printSchema

打印具有列及其数据类型的df架构，例如：-

root
 |-- ID: long (nullable = true)
 |-- TYPE: string (nullable = true)
 |-- CODE: string (nullable = true)

你试过什么？你搜索过网络吗？试着检查pyspark控制台上的len（df.columns）是否足够，不需要打印。真的希望有一个像.length或.size这样的OOP解决方案。RDD呢？如果我有RDD而不是dataframe，如何显示@Rakesh Kumar@chuck的列数