Apache spark 计算pyspark数据帧中的列数?
我有一个15列的数据框架(4个分类列,其余为数字列) 我为每个分类变量创建了虚拟变量。现在我想在我的新数据框中找到变量的数量 我试图计算Apache spark 计算pyspark数据帧中的列数?,apache-spark,machine-learning,pyspark,pyspark-sql,Apache Spark,Machine Learning,Pyspark,Pyspark Sql,我有一个15列的数据框架(4个分类列,其余为数字列) 我为每个分类变量创建了虚拟变量。现在我想在我的新数据框中找到变量的数量 我试图计算printSchema()的长度,但是NoneType: print type(df.printSchema()) 您发现方法不对,下面是关于此和printSchema的示例:- df = sqlContext.createDataFrame([ (1, "A", "X1"), (2, "B", "X2"), (3, "B", "X3"
printSchema()
的长度,但是NoneType
:
print type(df.printSchema())
您发现方法不对,下面是关于此和printSchema的示例:-
df = sqlContext.createDataFrame([
(1, "A", "X1"),
(2, "B", "X2"),
(3, "B", "X3"),
(1, "B", "X3"),
(2, "C", "X2"),
(3, "C", "X2"),
(1, "C", "X1"),
(1, "B", "X1"),
], ["ID", "TYPE", "CODE"])
# Python 2:
print len(df.columns) #3
# Python 3
print(len(df.columns)) #3
columns
提供了所有列的列表,我们可以检查len。相反,printSchema
打印具有列及其数据类型的df架构,例如:-
root
|-- ID: long (nullable = true)
|-- TYPE: string (nullable = true)
|-- CODE: string (nullable = true)
你试过什么?你搜索过网络吗?试着检查pyspark控制台上的len(df.columns)是否足够,不需要打印。真的希望有一个像.length或.size这样的OOP解决方案。RDD呢?如果我有RDD而不是dataframe,如何显示@Rakesh Kumar@chuck的列数