Apache spark 如何在Spark中命名数据帧以使DAG图更易于阅读?
在Spark中,经过几次连接后,DAG图可能变得相当复杂,例如:Apache spark 如何在Spark中命名数据帧以使DAG图更易于阅读?,apache-spark,debugging,Apache Spark,Debugging,在Spark中,经过几次连接后,DAG图可能变得相当复杂,例如: 有没有一种方法可以让它更容易理解,首先是命名Spark数据集,其次是用它计算(或帮助计算)的数据集标记每个阶段,以便我们可以将阶段追溯到代码?您可以将rdd命名为 yourrdd.setName(“ABCD”) 我们有数据集和数据帧的等价性吗?数据帧没有spark中的等价性,即使您在数据帧中编写代码,spark最终也会将所有内容转换为rdd。因此,在spark UI中,您只能看到从w.r.t到rddOK的详细信息,这使事情变得
有没有一种方法可以让它更容易理解,首先是命名Spark数据集,其次是用它计算(或帮助计算)的数据集标记每个阶段,以便我们可以将阶段追溯到代码?您可以将rdd命名为
yourrdd.setName(“ABCD”)
我们有数据集和数据帧的等价性吗?数据帧没有spark中的等价性,即使您在数据帧中编写代码,spark最终也会将所有内容转换为rdd。因此,在spark UI中,您只能看到从w.r.t到rddOK的详细信息,这使事情变得更加困难…:-(