Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe?
现在我正在为我的课程做一个项目,并发现将pandas dataframe转换为pyspark dataframe的问题。 我已经生成了一个名为data_org的熊猫数据框架,如下所示。 我想把它转换成pyspark数据帧,把它调整成libsvm格式。 所以我的代码是Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe?,python,pandas,dataframe,pyspark,Python,Pandas,Dataframe,Pyspark,现在我正在为我的课程做一个项目,并发现将pandas dataframe转换为pyspark dataframe的问题。 我已经生成了一个名为data_org的熊猫数据框架,如下所示。 我想把它转换成pyspark数据帧,把它调整成libsvm格式。 所以我的代码是 from pyspark.sql import SQLContext spark_df = SQLContext.createDataFrame(data_org) 然而,它出了问题 TypeError:createData
from pyspark.sql import SQLContext
spark_df = SQLContext.createDataFrame(data_org)
然而,它出了问题
TypeError:createDataFrame缺少1个必需的位置参数:“数据”
我真的不知道该怎么办。我的python版本是3.5.2,pyspark版本是2.0.1。
我期待您的回复。首先将sparkContext传递给SQLContext:
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)
然后使用createDataFrame,如下所示:
spark_df = sql.createDataFrame(data_org)
首先将sparkContext传递到SQLContext:
from pyspark import SparkContext
from pyspark.sql import SQLContext
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)
然后使用createDataFrame,如下所示:
spark_df = sql.createDataFrame(data_org)
sc是什么意思?我首先以pandas dataframe.sc的格式获取数据,即sparkContext。如果您使用spark submit运行脚本,它将由sparkI初始化,并使用anaconda spyder运行pyspark代码。在这种情况下如何解决问题?万分感谢!你能帮我解决另一个问题吗?sc是什么意思?我首先以pandas dataframe.sc的格式获取数据,即sparkContext。如果您使用spark submit运行脚本,它将由sparkI初始化,并使用anaconda spyder运行pyspark代码。在这种情况下如何解决问题?万分感谢!你能帮我解决另一个问题吗?