Amazon ec2 PySpark作业在读取CSV创建的数据帧时会丢失任务和异常_Amazon Ec2_Apache Spark_Pyspark

Amazon ec2 PySpark作业在读取CSV创建的数据帧时会丢失任务和异常

amazon-ec2 apache-spark pyspark

Amazon ec2 PySpark作业在读取CSV创建的数据帧时会丢失任务和异常,amazon-ec2,apache-spark,pyspark,Amazon Ec2,Apache Spark,Pyspark,我不确定如何继续诊断这个问题，但以下是我到目前为止的情况我用csv文件创建了一个数据帧（在这件事上我没有选择，我更希望它不是csv文件…）我这样吃： table = sqlContext.read \ .option('header','true') \ .option('inferSchema','true') \ .option('parserLib', 'univocity') \ .load(path, 'com.databricks.spark.cs

我不确定如何继续诊断这个问题，但以下是我到目前为止的情况

我用csv文件创建了一个数据帧（在这件事上我没有选择，我更希望它不是csv文件…）

我这样吃：

table = sqlContext.read \
    .option('header','true') \
    .option('inferSchema','true') \
    .option('parserLib', 'univocity') \
    .load(path, 'com.databricks.spark.csv')

现在，如果我做任何手术，它就会爆炸。特别是，如果我在本地计算机上执行以下操作：

table.count()

一切正常

如果启动ec2群集，然后执行相同的操作，则会出现以下错误：

WARN[2016-03-25T05:29:02.061]org.apache.spark.scheduler.TaskSetManager:stage 3.0中丢失的任务0.0（TID 1519，ip-10-0-35-54.ec2.internal）：java.lang.ClassCastException:java.lang.String无法转换为org.apache.spark.unsafe.types.UTF8String

然后

错误[2016-03-25T05:29:05.554]org.apache.spark.scheduler.TaskSetManager:stage 3.0中的任务0失败4次；中止工作

py4j.protocol.Py4JJavaError:调用z:org.apache.spark.api.python.PythonRDD.runJob时出错。
：org.apache.SparkException:作业因阶段失败而中止：阶段3.0中的任务0失败4次，最近的失败：阶段3.0中的任务0.3丢失（TID 1522，ip-10-0-35-56.ec2.internal）：java.lang.ClassCastException:java.lang.String无法转换为org.apache.spark.safe.types.UTF8String

当我读入其他avro文件时，一切都很完美。不知道发生了什么事。任何帮助都将不胜感激

注意，csv文件没有那么大。大约800K行。

您在本地计算机和ec2实例上运行的Spark版本是什么？@Salmonerd 1.6.1（在ec2上）和1.6.0（在本地计算机上）