Warning: file_get_contents(/data/phpspider/zhask/data//catemap/2/scala/18.json): failed to open stream: No such file or directory in /data/phpspider/zhask/libs/function.php on line 167

Warning: Invalid argument supplied for foreach() in /data/phpspider/zhask/libs/tag.function.php on line 1116

Notice: Undefined index: in /data/phpspider/zhask/libs/function.php on line 180

Warning: array_chunk() expects parameter 1 to be array, null given in /data/phpspider/zhask/libs/function.php on line 181
Python 登录spark阶段/任务如何帮助理解其对应的实际spark转换_Python_Scala_Apache Spark_Pyspark_Apache Spark Sql - Fatal编程技术网

Python 登录spark阶段/任务如何帮助理解其对应的实际spark转换

Python 登录spark阶段/任务如何帮助理解其对应的实际spark转换,python,scala,apache-spark,pyspark,apache-spark-sql,Python,Scala,Apache Spark,Pyspark,Apache Spark Sql,在调试Spark Jobs on failure的过程中,我们通常可以找到导致故障的适当阶段和任务,例如字符串索引越界异常,但很难理解是哪个转换导致了此故障。UI显示了Exchange/HashAggregate/Aggregate等信息,但在500多行代码中,查找导致此故障的实际转换变得非常困难,因此如何调试Spark任务故障并跟踪导致相同故障的转换?中断执行。这是了解错误可能来自何处的最简单方法。第一次运行500多行代码从来都不是一个好主意。您希望在处理过程中获得中间结果。另一种方法是使用I

在调试Spark Jobs on failure的过程中,我们通常可以找到导致故障的适当阶段和任务,例如字符串索引越界异常,但很难理解是哪个转换导致了此故障。UI显示了Exchange/HashAggregate/Aggregate等信息,但在500多行代码中,查找导致此故障的实际转换变得非常困难,因此如何调试Spark任务故障并跟踪导致相同故障的转换?

中断执行。这是了解错误可能来自何处的最简单方法。第一次运行500多行代码从来都不是一个好主意。您希望在处理过程中获得中间结果。另一种方法是使用IDE并遍历代码。这可以帮助您了解错误的来源。我更喜欢PyCharm(社区版是免费的),但VS代码可能也是一个不错的选择。

第一次肯定不是。我指的是一个实际的生产场景,其中一个完整的ETL作业已迁移到Apache Spark,我们在随机的几天内遇到转换失败