Pandas Spark中RDD和Dataframe的区别是什么

Pandas Spark中RDD和Dataframe的区别是什么,pandas,apache-spark,Pandas,Apache Spark,我通过链接 如果必须创建RDD来执行操作,我们可以开始使用数据帧。RDD比Dataframe有什么优势吗 我们可以在spark上运行Pandas、numpy数据帧功能吗。对于numpy,np.where,对于像df.groupby[''].agg()这样的熊猫 对于结构化数据,您不需要使用RDD。您可以对Scala和Java使用Dataframe或Dataset。对于Python,您需要使用Dataframe 对于非结构化数据,仍然需要使用RDD Dataframe通常提供最快的性能(根据Ma

我通过链接

  • 如果必须创建RDD来执行操作,我们可以开始使用数据帧。RDD比Dataframe有什么优势吗

  • 我们可以在spark上运行Pandas、numpy数据帧功能吗。对于numpy,np.where,对于像df.groupby[''].agg()这样的熊猫


对于结构化数据,您不需要使用RDD。您可以对Scala和Java使用Dataframe或Dataset。对于Python,您需要使用Dataframe

对于非结构化数据,仍然需要使用RDD

Dataframe通常提供最快的性能(根据Mathei的书)

dataframe语法(使用Spark SQL)可以支持几乎所有类似SQL的函数。你也可以使用熊猫


考拉项目支持在Spark上使用panda的语法。我更喜欢用这个而不是熊猫

你正在解决的问题是什么?