Warning: file_get_contents(/data/phpspider/zhask/data//catemap/3/apache-spark/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181

Warning: file_get_contents(/data/phpspider/zhask/data//catemap/0/hadoop/6.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Apache spark Spark中转换的失败处理_Apache Spark_Hadoop_Pyspark_Apache Spark Sql - Fatal编程技术网

Apache spark Spark中转换的失败处理

Apache spark Spark中转换的失败处理,apache-spark,hadoop,pyspark,apache-spark-sql,Apache Spark,Hadoop,Pyspark,Apache Spark Sql,我将所有数据从s3读入pyspark数据帧。 我在数据帧上应用过滤器转换。然后将数据帧写入S3 假设dataframe有10个分区,每个分区64MB。 现在假设对于分区1、2和3,过滤和写入都成功了,数据被写入S3 现在让我们假设对于分区4,过滤器错误被清除 这之后会发生什么。spark是否会继续处理所有剩余的分区并离开分区4,或者程序是否会在只写入3个分区后终止?转换是全部或无操作。在上述情况下,Spark将因分区4的错误而崩溃。非本地操作模式的相关参数为:Spark.task.maxFail

我将所有数据从s3读入pyspark数据帧。 我在数据帧上应用过滤器转换。然后将数据帧写入S3

假设dataframe有10个分区,每个分区64MB。 现在假设对于分区1、2和3,过滤和写入都成功了,数据被写入S3

现在让我们假设对于分区4,过滤器错误被清除


这之后会发生什么。spark是否会继续处理所有剩余的分区并离开分区4,或者程序是否会在只写入3个分区后终止?

转换是全部或无操作。在上述情况下,Spark将因分区4的错误而崩溃。

非本地操作模式的相关参数为:
Spark.task.maxFailures

  • 如果您有32个任务,4个执行者,7个已运行,4个正在运行,21个任务在该阶段等待,
    • 然后,如果在重新调度后,4个中的一个失败次数超过了
      spark.task.maxFailures
      • 然后作业将停止,不再执行任何阶段
      • 3个正在运行的任务将完成,但仅此而已

多阶段的作业必须停止,因为新阶段只能在前一阶段的所有任务完成后启动。

所以程序将在写入3个分区后终止?答案不一致。是的。我认为该计划将继续为剩余的分区。因为对于每个分区来说,这都是一项任务,如果其中一个分区失败,并不意味着其他分区也会失败。我是对的吗?我认为你是对的,但我们的任务是知道答案在哪里。Questoun也不是pyspark特有的。”但我们的工作是了解答案在哪里“。对不起。我没有得到这条线。你是如何测试这个解决方案的?你能分享一些有用的链接吗?我从过去的合同中知道。我现在在度假,所以没有真正使用Spark cluster。你可以在那里找到链接。谷歌在那个参数上。但这就是它的工作原理。”。