Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe？_Python_Pandas_Dataframe_Pyspark

Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe？

python pandas dataframe pyspark

Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe？,python,pandas,dataframe,pyspark,Python,Pandas,Dataframe,Pyspark,现在我正在为我的课程做一个项目，并发现将pandas dataframe转换为pyspark dataframe的问题。我已经生成了一个名为data_org的熊猫数据框架，如下所示。我想把它转换成pyspark数据帧，把它调整成libsvm格式。所以我的代码是 from pyspark.sql import SQLContext spark_df = SQLContext.createDataFrame(data_org) 然而，它出了问题 TypeError:createData

现在我正在为我的课程做一个项目，并发现将pandas dataframe转换为pyspark dataframe的问题。我已经生成了一个名为data_org的熊猫数据框架，如下所示。

我想把它转换成pyspark数据帧，把它调整成libsvm格式。所以我的代码是

from pyspark.sql import SQLContext  
spark_df = SQLContext.createDataFrame(data_org)

然而，它出了问题

TypeError:createDataFrame缺少1个必需的位置参数：“数据”

我真的不知道该怎么办。我的python版本是3.5.2，pyspark版本是2.0.1。

我期待您的回复。

首先将sparkContext传递给SQLContext：

from pyspark import SparkContext
from pyspark.sql import SQLContext 
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

然后使用createDataFrame，如下所示：

spark_df = sql.createDataFrame(data_org)

首先将sparkContext传递到SQLContext：

from pyspark import SparkContext
from pyspark.sql import SQLContext 
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)

然后使用createDataFrame，如下所示：

spark_df = sql.createDataFrame(data_org)

sc是什么意思？我首先以pandas dataframe.sc的格式获取数据，即sparkContext。如果您使用spark submit运行脚本，它将由sparkI初始化，并使用anaconda spyder运行pyspark代码。在这种情况下如何解决问题？万分感谢！你能帮我解决另一个问题吗？sc是什么意思？我首先以pandas dataframe.sc的格式获取数据，即sparkContext。如果您使用spark submit运行脚本，它将由sparkI初始化，并使用anaconda spyder运行pyspark代码。在这种情况下如何解决问题？万分感谢！你能帮我解决另一个问题吗？