Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark 计算pyspark数据帧中的列数?_Apache Spark_Machine Learning_Pyspark_Pyspark Sql - Fatal编程技术网

Apache spark 计算pyspark数据帧中的列数?

Apache spark 计算pyspark数据帧中的列数?,apache-spark,machine-learning,pyspark,pyspark-sql,Apache Spark,Machine Learning,Pyspark,Pyspark Sql,我有一个15列的数据框架(4个分类列,其余为数字列) 我为每个分类变量创建了虚拟变量。现在我想在我的新数据框中找到变量的数量 我试图计算printSchema()的长度,但是NoneType: print type(df.printSchema()) 您发现方法不对,下面是关于此和printSchema的示例:- df = sqlContext.createDataFrame([ (1, "A", "X1"), (2, "B", "X2"), (3, "B", "X3"

我有一个15列的数据框架(4个分类列,其余为数字列)

我为每个分类变量创建了虚拟变量。现在我想在我的新数据框中找到变量的数量

我试图计算
printSchema()
的长度,但是
NoneType

print type(df.printSchema())

您发现方法不对,下面是关于此和printSchema的示例:-

df = sqlContext.createDataFrame([
    (1, "A", "X1"),
    (2, "B", "X2"),
    (3, "B", "X3"),
    (1, "B", "X3"),
    (2, "C", "X2"),
    (3, "C", "X2"),
    (1, "C", "X1"),
    (1, "B", "X1"),
], ["ID", "TYPE", "CODE"])


# Python 2:
print len(df.columns) #3
# Python 3
print(len(df.columns)) #3
columns
提供了所有列的列表,我们可以检查len。相反,
printSchema
打印具有列及其数据类型的df架构,例如:-

root
 |-- ID: long (nullable = true)
 |-- TYPE: string (nullable = true)
 |-- CODE: string (nullable = true)

你试过什么?你搜索过网络吗?试着检查pyspark控制台上的len(df.columns)是否足够,不需要打印。真的希望有一个像.length或.size这样的OOP解决方案。RDD呢?如果我有RDD而不是dataframe,如何显示@Rakesh Kumar@chuck的列数