Dictionary piplinedRDD可以';t使用toDF转换为数据帧

Dictionary piplinedRDD可以';t使用toDF转换为数据帧,dictionary,pyspark,rdd,Dictionary,Pyspark,Rdd,我有一个pyspark数据框,它包含用逗号分隔的数据行。我想分割每一行并对其应用LabeledPoints方法。然后将其转换为数据帧 这是我的密码 import os.path from pyspark.mllib.regression import LabeledPoint import numpy as np file_name = os.path.join('databricks-datasets', 'cs190', 'data-001', 'millionsong.txt')

我有一个pyspark数据框,它包含用逗号分隔的数据行。我想分割每一行并对其应用LabeledPoints方法。然后将其转换为数据帧

这是我的密码

import os.path
from pyspark.mllib.regression import LabeledPoint
import numpy as np
file_name = os.path.join('databricks-datasets', 'cs190', 'data-001',    'millionsong.txt')

raw_data_df = sqlContext.read.load(file_name, 'text')
rdd = raw_data_df.rdd.map(lambda line: line.split(',')).map(lambda seq:LabeledPoints(seq[0],seq[1:])).toDF()
它在apply.DF()之后给出以下错误消息

答案如下: rdd=raw_data_df.map(lambda行:行['value'].split(',')).map(lambda seq:LabeledPoint(float(seq[0]),seq[1:])。toDF()


在这里,我需要使用行['value']特别引用每行文本,即使行中只有一个功能。

打字:
标签点
!=<代码>标签点如果我纠正了输入错误,问题仍然存在。即使在删除第二个贴图后,在使用take()显示拆分后的线时仍然会导致错误。
---------------------------------------------------------------------------
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 38.0 failed 1 times, most recent failure: Lost task 0.0 in stage 38.0 (TID 44, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-65-dc4d86a8ee45> in <module>()
----> 1 rdd = raw_data_df.rdd.map(lambda line: line.split(',')).map(lambda     seq:LabeledPoints(seq[0],seq[1:])).toDF()
  2 print(type(rdd))
  3 #print(rdd.take(5))

/databricks/spark/python/pyspark/sql/context.py in toDF(self, schema,     sampleRatio)
 62         [Row(name=u'Alice', age=1)]
 63         """
 ---> 64         return sqlContext.createDataFrame(self, schema, sampleRatio)
 65 
 66     RDD.toDF = toDF

/databricks/spark/python/pyspark/sql/context.py in createDataFrame(self, data, schema, samplingRatio)
421 
422         if isinstance(data, RDD):
/databricks/spark/python/pyspark/sql/context.py in _createFromRDD(self, rdd, schema, samplingRatio)