Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/5.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark count对从启用了inferSchema的对象存储加载的文件抛出java.lang.NumberFormatException:null_Apache Spark_Apache Spark Sql_Databricks_Spark Csv - Fatal编程技术网

Apache spark count对从启用了inferSchema的对象存储加载的文件抛出java.lang.NumberFormatException:null

Apache spark count对从启用了inferSchema的对象存储加载的文件抛出java.lang.NumberFormatException:null,apache-spark,apache-spark-sql,databricks,spark-csv,Apache Spark,Apache Spark Sql,Databricks,Spark Csv,启用inferSchema时,从IBM Blue mix对象存储加载的数据帧上的count()引发以下异常: Name: org.apache.spark.SparkException Message: Job aborted due to stage failure: Task 3 in stage 43.0 failed 10 times, most recent failure: Lost task 3.9 in stage 43.0 (TID 166, yp-spark-dal09-en

启用inferSchema时,从IBM Blue mix对象存储加载的数据帧上的count()引发以下异常:

Name: org.apache.spark.SparkException
Message: Job aborted due to stage failure: Task 3 in stage 43.0 failed 10 times, most recent failure: Lost task 3.9 in stage 43.0 (TID 166, yp-spark-dal09-env5-0034): java.lang.NumberFormatException: null
    at java.lang.Integer.parseInt(Integer.java:554)
    at java.lang.Integer.parseInt(Integer.java:627)
    at scala.collection.immutable.StringLike$class.toInt(StringLike.scala:272)
    at scala.collection.immutable.StringOps.toInt(StringOps.scala:29)
    at org.apache.spark.sql.execution.datasources.csv.CSVTypeCast$.castTo(CSVInferSchema.scala:241)
    at org.apache.spark.sql.execution.datasources.csv.CSVRelation$$anonfun$csvParser$3.apply(CSVRelation.scala:116)
    at org.apache.spark.sql.execution.datasources.csv.CSVRelation$$anonfun$csvParser$3.apply(CSVRelation.scala:85)
    at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat$$anonfun$buildReader$1$$anonfun$apply$2.apply(CSVFileFormat.scala:128)
    at org.apache.spark.sql.execution.datasources.csv.CSVFileFormat$$anonfun$buildReader$1$$anonfun$apply$2.apply(CSVFileFormat.scala:127)
    at scala.collection.Iterator$$anon$12.nextCur(Iterator.scala:434)
    at scala.collection.Iterator$$anon$12.hasNext(Iterator.scala:440)
    at scala.collection.Iterator$$anon$11.hasNext(Iterator.scala:408)
    at org.apache.spark.sql.execution.datasources.FileScanRDD$$anon$1.hasNext(FileScanRDD.scala:91)
如果禁用InferreSchema,则不会出现上述异常。
为什么我会得到这个例外?默认情况下,如果启用了inferSchema,Datatricks将读取多少行?

这实际上是拖动到
spark 2.0
中的
spark csv
包()的问题。它已被更正并推入
spark 2.1

以下是关联的PR:


由于您已经在使用spark 2.0,因此可以轻松升级到2.1并删除
spark csv
软件包。反正也不需要

这实际上是被拖入
spark2.0
sparkcsv
包()的问题。它已被更正并推入
spark 2.1

以下是关联的PR:


由于您已经在使用spark 2.0,因此可以轻松升级到2.1并删除
spark csv
软件包。反正也不需要

你使用的是什么版本的spark csv?spark csv版本是1.5,spark呢?spark版本是2.0是的,移动到spark 2.1起作用了,但我不明白为什么会起作用?你能解释一下吗?你用的是什么版本的spark csv?spark csv版本是1.5,spark呢?spark版本是2.0是的,移动到spark 2.1起作用了,但我不明白为什么会起作用?你能解释一下吗?我还有一个问题,事实上,上面的加载作为一个独立的加载运行得很好,没有任何问题,在我的应用程序中使用来自的相同命令失败了,出现了上述异常。原因可能是什么?所有这些都在spark 2.0上。不太可能。它被合并到spark 2.1中,解决这个问题可能有点痛苦。(dirty solution读取为文本和映射(解析),然后转换为DF)我还有一个问题,实际上上面的加载作为一个独立的加载运行良好,没有任何问题,在我的应用程序中使用来自with的相同命令失败,出现上述异常。原因可能是什么?所有这些都在spark 2.0上。不太可能。它被合并到spark 2.1中,解决这个问题可能有点痛苦。(脏解决方案读取为文本和映射(解析),然后转换为DF)