Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/python/349.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe?_Python_Pandas_Dataframe_Pyspark - Fatal编程技术网

Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe?

Python 如何将pandas dataframe转换为具有rdd属性的pyspark dataframe?,python,pandas,dataframe,pyspark,Python,Pandas,Dataframe,Pyspark,现在我正在为我的课程做一个项目,并发现将pandas dataframe转换为pyspark dataframe的问题。 我已经生成了一个名为data_org的熊猫数据框架,如下所示。 我想把它转换成pyspark数据帧,把它调整成libsvm格式。 所以我的代码是 from pyspark.sql import SQLContext spark_df = SQLContext.createDataFrame(data_org) 然而,它出了问题 TypeError:createData

现在我正在为我的课程做一个项目,并发现将pandas dataframe转换为pyspark dataframe的问题。 我已经生成了一个名为data_org的熊猫数据框架,如下所示。

我想把它转换成pyspark数据帧,把它调整成libsvm格式。 所以我的代码是

from pyspark.sql import SQLContext  
spark_df = SQLContext.createDataFrame(data_org)
然而,它出了问题

TypeError:createDataFrame缺少1个必需的位置参数:“数据”

我真的不知道该怎么办。我的python版本是3.5.2,pyspark版本是2.0.1。
我期待您的回复。

首先将sparkContext传递给SQLContext:

from pyspark import SparkContext
from pyspark.sql import SQLContext 
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)
然后使用createDataFrame,如下所示:

spark_df = sql.createDataFrame(data_org)

首先将sparkContext传递到SQLContext:

from pyspark import SparkContext
from pyspark.sql import SQLContext 
sc = SparkContext("local", "App Name")
sql = SQLContext(sc)
然后使用createDataFrame,如下所示:

spark_df = sql.createDataFrame(data_org)

sc是什么意思?我首先以pandas dataframe.sc的格式获取数据,即sparkContext。如果您使用spark submit运行脚本,它将由sparkI初始化,并使用anaconda spyder运行pyspark代码。在这种情况下如何解决问题?万分感谢!你能帮我解决另一个问题吗?sc是什么意思?我首先以pandas dataframe.sc的格式获取数据,即sparkContext。如果您使用spark submit运行脚本,它将由sparkI初始化,并使用anaconda spyder运行pyspark代码。在这种情况下如何解决问题?万分感谢!你能帮我解决另一个问题吗?