Scala Spark Output镶木地板尺寸,带SparkListener
我正在使用Scala Spark Output镶木地板尺寸,带SparkListener,scala,apache-spark,apache-spark-sql,monitoring,Scala,Apache Spark,Apache Spark Sql,Monitoring,我正在使用SparkListener的onStageCompleted,试图从可累积数据中挖掘出一些有用的数据 我感兴趣的是找出输出的大小,以便进行监视。 虽然输入行计数和字节可以从第一阶段的“internal.metrics.input.recordsRead”和“internal.metrics.shuffle.write.byteswrited”中获取,而输出行计数可以从倒数第二阶段的“internal.metrics.shuffle.write.recordswrited”中找到,但我不
SparkListener
的onStageCompleted
,试图从可累积数据中挖掘出一些有用的数据
我感兴趣的是找出输出的大小,以便进行监视。
虽然输入行计数和字节可以从第一阶段的“internal.metrics.input.recordsRead”和“internal.metrics.shuffle.write.byteswrited”中获取,而输出行计数可以从倒数第二阶段的“internal.metrics.shuffle.write.recordswrited”中找到,但我不知道如何找到输出字节
解压或压缩也是我的选择。我使用的是Spark 2.10。看看onTaskEnd,它有一个BytesWrite属性。
数据块
也可能有用。谢谢您的帮助。不幸的是,BytesWrite和RecordsWrite属性始终为0。还有另一种方法:taskEnd.taskInfo.accumulables(6).value.get[link]()查看此链接以了解更多详细信息。True。但是,我只能访问stageEnd中已有的“输出行数”。顺便说一句,奇怪的是,它出现了两次。并且没有与写入的字节相关的Accumuble。