ApacheSpark与python
我想使用python读取spark数据帧,然后将spark数据帧转换为pandas数据帧,然后在进行一些数据分析后将pandas数据帧转换回spark数据帧。请提出建议。我真的建议您慢慢来,仔细阅读Spark的文档,重点是Pyspark实现,因为它的示例比其他的多 很简单,如果您阅读的文档,您可以看到它们可以作为数据接收下一个结构:ApacheSpark与python,python,apache-spark,pyspark,Python,Apache Spark,Pyspark,我想使用python读取spark数据帧,然后将spark数据帧转换为pandas数据帧,然后在进行一些数据分析后将pandas数据帧转换回spark数据帧。请提出建议。我真的建议您慢慢来,仔细阅读Spark的文档,重点是Pyspark实现,因为它的示例比其他的多 很简单,如果您阅读的文档,您可以看到它们可以作为数据接收下一个结构: createDataFrame(data, schema=None, samplingRatio=None) 数据–行/元组/列表/dict、列表或pandas.
createDataFrame(data, schema=None, samplingRatio=None)
数据–行/元组/列表/dict、列表或pandas.DataFrame的RDD
此外,如果您阅读了与的相关文档,您会注意到他们有一个名为toPandas的方法,它允许将spark的数据帧转换为Pandas 它们非常兼容,例如,建议什么?你尝试了什么,有什么问题,为什么失败了,等等,脾气暴躁的猫