Hadoop 两次显示阶段进展的火花
不确定这是否是一个明显的问题,但我注意到每次Spark执行一个操作,例如从文件加载或从数据帧选择,显示为Hadoop 两次显示阶段进展的火花,hadoop,apache-spark,pyspark,Hadoop,Apache Spark,Pyspark,不确定这是否是一个明显的问题,但我注意到每次Spark执行一个操作,例如从文件加载或从数据帧选择,显示为Stage=====>的进度都会重复两次 它发生在我的脚本中,所以它不是我可以显示的特定代码。我也不知道如何以其他方式检查它,以确定它是否实际执行了两次,或者只是显示 是否有人知道这是否是一个问题,或者我可以在哪里检查以确定?如果您有跑步记录,您可以从我的记录中查看,但我仍然不确定。我没有使用过Spark UI,但据我所知,我认为它们不会重复。复制阶段应该是什么样子?相同的输入、输出等,还是其
Stage=====>
的进度都会重复两次
它发生在我的脚本中,所以它不是我可以显示的特定代码。我也不知道如何以其他方式检查它,以确定它是否实际执行了两次,或者只是显示
是否有人知道这是否是一个问题,或者我可以在哪里检查以确定?如果您有跑步记录,您可以从我的记录中查看,但我仍然不确定。我没有使用过Spark UI,但据我所知,我认为它们不会重复。复制阶段应该是什么样子?相同的输入、输出等,还是其他?如果没有重复,是否可能只是一个进度条错误显示了两次,或者它不应该发生?*说得很清楚,我的意思是我没有使用Spark UI来理解所有的监控,但我在本例中检查了它。