Apache spark Spark中转换的失败处理_Apache Spark_Hadoop_Pyspark_Apache Spark Sql

Apache spark Spark中转换的失败处理

apache-spark hadoop pyspark

Apache spark Spark中转换的失败处理,apache-spark,hadoop,pyspark,apache-spark-sql,Apache Spark,Hadoop,Pyspark,Apache Spark Sql,我将所有数据从s3读入pyspark数据帧。我在数据帧上应用过滤器转换。然后将数据帧写入S3 假设dataframe有10个分区，每个分区64MB。现在假设对于分区1、2和3，过滤和写入都成功了，数据被写入S3 现在让我们假设对于分区4，过滤器错误被清除这之后会发生什么。spark是否会继续处理所有剩余的分区并离开分区4，或者程序是否会在只写入3个分区后终止？转换是全部或无操作。在上述情况下，Spark将因分区4的错误而崩溃。非本地操作模式的相关参数为：Spark.task.maxFail

我将所有数据从s3读入pyspark数据帧。我在数据帧上应用过滤器转换。然后将数据帧写入S3

假设dataframe有10个分区，每个分区64MB。现在假设对于分区1、2和3，过滤和写入都成功了，数据被写入S3

现在让我们假设对于分区4，过滤器错误被清除

这之后会发生什么。spark是否会继续处理所有剩余的分区并离开分区4，或者程序是否会在只写入3个分区后终止？

转换是全部或无操作。在上述情况下，Spark将因分区4的错误而崩溃。

非本地操作模式的相关参数为：

Spark.task.maxFailures

如果您有32个任务，4个执行者，7个已运行，4个正在运行，21个任务在该阶段等待，
- 然后，如果在重新调度后，4个中的一个失败次数超过了
```
spark.task.maxFailures
```
  ，
  - 然后作业将停止，不再执行任何阶段
  - 3个正在运行的任务将完成，但仅此而已

多阶段的作业必须停止，因为新阶段只能在前一阶段的所有任务完成后启动。

所以程序将在写入3个分区后终止？答案不一致。是的。我认为该计划将继续为剩余的分区。因为对于每个分区来说，这都是一项任务，如果其中一个分区失败，并不意味着其他分区也会失败。我是对的吗？我认为你是对的，但我们的任务是知道答案在哪里。Questoun也不是pyspark特有的。”但我们的工作是了解答案在哪里“。对不起。我没有得到这条线。你是如何测试这个解决方案的？你能分享一些有用的链接吗？我从过去的合同中知道。我现在在度假，所以没有真正使用Spark cluster。你可以在那里找到链接。谷歌在那个参数上。但这就是它的工作原理。”。