Dictionary piplinedRDD可以'；t使用toDF转换为数据帧_Dictionary_Pyspark_Rdd

Dictionary piplinedRDD可以'；t使用toDF转换为数据帧

dictionary pyspark

Dictionary piplinedRDD可以'；t使用toDF转换为数据帧,dictionary,pyspark,rdd,Dictionary,Pyspark,Rdd,我有一个pyspark数据框，它包含用逗号分隔的数据行。我想分割每一行并对其应用LabeledPoints方法。然后将其转换为数据帧这是我的密码 import os.path from pyspark.mllib.regression import LabeledPoint import numpy as np file_name = os.path.join('databricks-datasets', 'cs190', 'data-001', 'millionsong.txt')

我有一个pyspark数据框，它包含用逗号分隔的数据行。我想分割每一行并对其应用LabeledPoints方法。然后将其转换为数据帧

这是我的密码

import os.path
from pyspark.mllib.regression import LabeledPoint
import numpy as np
file_name = os.path.join('databricks-datasets', 'cs190', 'data-001',    'millionsong.txt')

raw_data_df = sqlContext.read.load(file_name, 'text')
rdd = raw_data_df.rdd.map(lambda line: line.split(',')).map(lambda seq:LabeledPoints(seq[0],seq[1:])).toDF()

它在apply.DF（）之后给出以下错误消息

答案如下： rdd=raw_data_df.map（lambda行：行['value'].split（'，'））.map（lambda seq:LabeledPoint（float（seq[0]），seq[1:]）。toDF（）

在这里，我需要使用行['value']特别引用每行文本，即使行中只有一个功能。

打字：

标签点

！=<代码>标签点如果我纠正了输入错误，问题仍然存在。即使在删除第二个贴图后，在使用take（）显示拆分后的线时仍然会导致错误。

---------------------------------------------------------------------------
org.apache.spark.SparkException: Job aborted due to stage failure: Task 0 in stage 38.0 failed 1 times, most recent failure: Lost task 0.0 in stage 38.0 (TID 44, localhost): org.apache.spark.api.python.PythonException: Traceback (most recent call last):
Py4JJavaError                             Traceback (most recent call last)
<ipython-input-65-dc4d86a8ee45> in <module>()
----> 1 rdd = raw_data_df.rdd.map(lambda line: line.split(',')).map(lambda     seq:LabeledPoints(seq[0],seq[1:])).toDF()
  2 print(type(rdd))
  3 #print(rdd.take(5))

/databricks/spark/python/pyspark/sql/context.py in toDF(self, schema,     sampleRatio)
 62         [Row(name=u'Alice', age=1)]
 63         """
 ---> 64         return sqlContext.createDataFrame(self, schema, sampleRatio)
 65 
 66     RDD.toDF = toDF

/databricks/spark/python/pyspark/sql/context.py in createDataFrame(self, data, schema, samplingRatio)
421 
422         if isinstance(data, RDD):

/databricks/spark/python/pyspark/sql/context.py in _createFromRDD(self, rdd, schema, samplingRatio)