Python 在数据帧上迭代

Python 在数据帧上迭代,python,apache-spark,Python,Apache Spark,我是火花的初学者。我试图在数据帧上迭代,如下所示(pyspark代码) 数组arr是一个行数组。我需要知道如何从该数组中获取列值arr。我尝试了下面的代码,但出现了一些错误 For row in arr : print row.getString(1) 我得到以下错误 有人能帮助我如何在不使用pandas的情况下获取列值吗?您不想“收集”,因为这只会将数据带到主数据。 您可以执行df.printSchema()查看您有哪些列(因为您正在读取CSV,您很可能希望在标题中读取,如spark.re

我是火花的初学者。我试图在数据帧上迭代,如下所示(pyspark代码)

数组
arr
是一个行数组。我需要知道如何从该数组中获取列值
arr
。我尝试了下面的代码,但出现了一些错误

For row in arr :  print row.getString(1)
我得到以下错误

有人能帮助我如何在不使用pandas的情况下获取列值吗?

您不想“
收集
”,因为这只会将数据带到主数据。
您可以执行
df.printSchema()
查看您有哪些列(因为您正在读取CSV,您很可能希望在标题中读取,如
spark.read.option('header','true').CSV(path)
)和
df.show()
查看20个样本行(您还可以指定行数)

是的,我知道这不是一个好主意,但是我为这个用例收集的数据非常小,这是一个静态数据收集
For row in arr :  print row.getString(1)