Amazon ec2 PySpark作业在读取CSV创建的数据帧时会丢失任务和异常

Amazon ec2 PySpark作业在读取CSV创建的数据帧时会丢失任务和异常,amazon-ec2,apache-spark,pyspark,Amazon Ec2,Apache Spark,Pyspark,我不确定如何继续诊断这个问题,但以下是我到目前为止的情况 我用csv文件创建了一个数据帧(在这件事上我没有选择,我更希望它不是csv文件…) 我这样吃: table = sqlContext.read \ .option('header','true') \ .option('inferSchema','true') \ .option('parserLib', 'univocity') \ .load(path, 'com.databricks.spark.cs

我不确定如何继续诊断这个问题,但以下是我到目前为止的情况

我用csv文件创建了一个数据帧(在这件事上我没有选择,我更希望它不是csv文件…)

我这样吃:

table = sqlContext.read \
    .option('header','true') \
    .option('inferSchema','true') \
    .option('parserLib', 'univocity') \
    .load(path, 'com.databricks.spark.csv')
现在,如果我做任何手术,它就会爆炸。特别是,如果我在本地计算机上执行以下操作:

table.count()
一切正常

如果启动ec2群集,然后执行相同的操作,则会出现以下错误:

WARN[2016-03-25T05:29:02.061]org.apache.spark.scheduler.TaskSetManager:stage 3.0中丢失的任务0.0(TID 1519,ip-10-0-35-54.ec2.internal):java.lang.ClassCastException:java.lang.String无法转换为org.apache.spark.unsafe.types.UTF8String

然后

错误[2016-03-25T05:29:05.554]org.apache.spark.scheduler.TaskSetManager:stage 3.0中的任务0失败4次;中止工作

py4j.protocol.Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob时出错。
:org.apache.SparkException:作业因阶段失败而中止:阶段3.0中的任务0失败4次,最近的失败:阶段3.0中的任务0.3丢失(TID 1522,ip-10-0-35-56.ec2.internal):java.lang.ClassCastException:java.lang.String无法转换为org.apache.spark.safe.types.UTF8String

当我读入其他avro文件时,一切都很完美。不知道发生了什么事。任何帮助都将不胜感激


注意,csv文件没有那么大。大约800K行。

您在本地计算机和ec2实例上运行的Spark版本是什么?@Salmonerd 1.6.1(在ec2上)和1.6.0(在本地计算机上)