Python 将spark rdd转换为数据帧

Python 将spark rdd转换为数据帧,python,pandas,apache-spark,dataframe,pyspark,Python,Pandas,Apache Spark,Dataframe,Pyspark,我有一个包含15个字段的rdd。要进行一些计算,我必须将其转换为数据帧 我尝试使用df.toPandas()函数,但该函数不起作用。我尝试提取每个rdd并用空格将其分隔,然后将其放在数据帧中,但这也不起作用 [u'2015-07-22T09:00:28.019143Z ssh 123.242.248.130:54635 10.0.6.158:80 0.000022 0.026109 0.00002 200 200 0 699 "GET https://google.coml HTTP/1.1"

我有一个包含15个字段的rdd。要进行一些计算,我必须将其转换为数据帧

我尝试使用df.toPandas()函数,但该函数不起作用。我尝试提取每个rdd并用空格将其分隔,然后将其放在数据帧中,但这也不起作用

[u'2015-07-22T09:00:28.019143Z ssh 123.242.248.130:54635 10.0.6.158:80 0.000022 0.026109 0.00002 200 200 0 699 "GET https://google.coml HTTP/1.1" "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36" ECDE-PAM TLSv1.2',
 u'2015-07-22T09:00:27.894580Z ssh 203.91.211.44:51402 10.0.4.150:80 0.000024 0.15334 0.000026 200 200 0 1497 "GET https://yahoo.com HTTP/1.1" "Mozilla/5.0 (Windows NT 6.1; rv:39.0) Gecko/20100101 Firefox/39.0" ECDL-RAT TLSv1.2']
有什么我可以使用的功能吗


提前谢谢

如果您有以下形式的rdd:

>>> rdd.collect()
[[u'2015-07-22T09:00:28.019143Z', u'ssh', u'123.242.248.130:54635', u'10.0.6.158:80', u'0.000022', u'0.026109', u'0.00002', u'200', u'200', u'0', u'699', u'"GET https://google.coml HTTP/1.1"', u'"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML like Gecko) Chrome/43.0.2357.130 Safari/537.36"', u'ECDE-PAM', u'TLSv1.2'], 
 [u'2015-07-22T09:00:27.894580Z', u'ssh', u'203.91.211.44:51402', u'10.0.4.150:80', u'0.000024', u'0.15334', u'0.000026', u'200', u'200', u'0', u'1497', u'"GET https://yahoo.com HTTP/1.1"', u'"Mozilla/5.0 (Windows NT 6.1; rv:39.0) Gecko/20100101 Firefox/39.0"', u'ECDL-RAT', u'TLSv1.2']]
然后
rdd.toDF(['column1\u name'、'column2\u name'、..、'column15\u name'])。toPandas()
将完成此工作(但需要安装
pandas
python包)