Python createOrReplaceTempView和pyspark dataframe之间有什么区别

Python createOrReplaceTempView和pyspark dataframe之间有什么区别,python,sql,pyspark,Python,Sql,Pyspark,我想知道pyspark数据帧和createOrReplaceTempView 我知道pyspark dataframe必须使用python,而createOrReplaceTempView则是SQL,但就内存而言,使用集群、并行化,两者都是一样的吗 例如,如果我使用.toPandas()?还是仍在分发 另外,我想知道,如果我使用创建或替换临时视图tablename如何将该表传递给pyspark数据帧 问候 我想知道pyspark数据帧和createOrReplaceTempView之间的区别 我

我想知道pyspark数据帧和
createOrReplaceTempView

我知道pyspark dataframe必须使用python,而
createOrReplaceTempView
则是SQL,但就内存而言,使用集群、并行化,两者都是一样的吗

例如,如果我使用
.toPandas()?还是仍在分发

另外,我想知道,如果我使用
创建或替换临时视图tablename
如何将该表传递给pyspark数据帧

问候

我想知道pyspark数据帧和createOrReplaceTempView之间的区别

我知道pyspark dataframe必须使用python,而createOrReplaceTempView是SQL,但在内存方面,使用集群、并行化,两者都是一样的吗

它们都应该是相似的

例如,如果我使用.toPandas(),我会将所有数据放在内存中,createOrReplaceTempView是否也会发生类似的情况?还是仍在分发


.toPandas()
收集所有数据并返回到驱动程序内存,
createOrReplaceTempView
是惰性的

要将表传递到pyspark数据帧,可以编写以下命令:
df=spark.sql('SELECT*fromTableName')
。然后df.show()将显示数据帧,df.count()将打印其长度,等等。