Python createOrReplaceTempView和pyspark dataframe之间有什么区别
我想知道pyspark数据帧和Python createOrReplaceTempView和pyspark dataframe之间有什么区别,python,sql,pyspark,Python,Sql,Pyspark,我想知道pyspark数据帧和createOrReplaceTempView 我知道pyspark dataframe必须使用python,而createOrReplaceTempView则是SQL,但就内存而言,使用集群、并行化,两者都是一样的吗 例如,如果我使用.toPandas()?还是仍在分发 另外,我想知道,如果我使用创建或替换临时视图tablename如何将该表传递给pyspark数据帧 问候 我想知道pyspark数据帧和createOrReplaceTempView之间的区别 我
createOrReplaceTempView
我知道pyspark dataframe必须使用python,而createOrReplaceTempView
则是SQL,但就内存而言,使用集群、并行化,两者都是一样的吗
例如,如果我使用.toPandas()?还是仍在分发
另外,我想知道,如果我使用创建或替换临时视图tablename
如何将该表传递给pyspark数据帧
问候
我想知道pyspark数据帧和createOrReplaceTempView之间的区别
我知道pyspark dataframe必须使用python,而createOrReplaceTempView是SQL,但在内存方面,使用集群、并行化,两者都是一样的吗
它们都应该是相似的
例如,如果我使用.toPandas(),我会将所有数据放在内存中,createOrReplaceTempView是否也会发生类似的情况?还是仍在分发
.toPandas()
收集所有数据并返回到驱动程序内存,createOrReplaceTempView
是惰性的要将表传递到pyspark数据帧,可以编写以下命令:df=spark.sql('SELECT*fromTableName')
。然后df.show()将显示数据帧,df.count()将打印其长度,等等。