Apache spark spark中的dataframe.show()和dataframe.take()之间有什么区别?为了提高性能,我们需要提高什么?

Apache spark spark中的dataframe.show()和dataframe.take()之间有什么区别?为了提高性能,我们需要提高什么?,apache-spark,apache-spark-sql,Apache Spark,Apache Spark Sql,我使用dataframes从拼花地板文件读取数据,创建临时视图,并在临时视图顶部运行SQL查询 spark.read.parquet(“filename.parquet”).createOrReplaceTempView(“诱惑”) val df=spark.sql(“从诱惑中选择*) 为了检查df的结果,我使用了df.show(),但是执行需要更多的时间,如果使用df.take(10) 在take()和show()之间有什么区别。我应该使用哪种方法来更好地检查结果take()和show()是不

我使用dataframes从拼花地板文件读取数据,创建临时视图,并在临时视图顶部运行SQL查询

spark.read.parquet(“filename.parquet”).createOrReplaceTempView(“诱惑”)

val df=spark.sql(“从诱惑中选择*)

为了检查
df
的结果,我使用了
df.show()
,但是执行需要更多的时间,如果使用
df.take(10)

take()
show()
之间有什么区别。我应该使用哪种方法来更好地检查结果
take()
show()
是不同的
show()
打印结果,
take()
返回行列表(在PySpark中),可用于创建新的数据帧。它们都是行动

打印结果

df.show()
获取行列表(PySpark)

sampleList=df.take(10)
take()
show()
是不同的
show()
打印结果,
take()
返回行列表(在PySpark中),可用于创建新的数据帧。它们都是行动

打印结果

df.show()
获取行列表(PySpark)

sampleList=df.take(10)