Java 如何在spark中获取FileOutputFormat统计信息,如记录计数、写入的字节数等?

Java 如何在spark中获取FileOutputFormat统计信息,如记录计数、写入的字节数等?,java,hadoop,apache-spark,Java,Hadoop,Apache Spark,在Hadoop中,当我使用FileOutputFormat时,我会在最后得到一个报告,描述日志中记录的数量、写入的字节数等(我认为它是作业跟踪器日志) 现在在Spark中,我通过saveAsNewAPIHadoopDataset方法使用相同的FileOutputFormat: myPairRdd.saveAsNewAPIHadoopDataset(config); 但是,我不知道如何从FileOutputFormat收集统计信息 在Spark应用程序中,我使用累加器作为计数器来获取一些统计

在Hadoop中,当我使用
FileOutputFormat
时,我会在最后得到一个报告,描述日志中记录的数量、写入的字节数等(我认为它是作业跟踪器日志)

现在在Spark中,我通过
saveAsNewAPIHadoopDataset
方法使用相同的
FileOutputFormat

myPairRdd.saveAsNewAPIHadoopDataset(config);  
但是,我不知道如何从
FileOutputFormat
收集统计信息

在Spark应用程序中,我使用累加器作为计数器来获取一些统计数据,但我希望以FileOutputFormat收集统计数据并在最后报告

我甚至愿意编写自己的
FileOutputFormat
&
RecordWriter
delegator,它将统计记录并将记录的实际写入委托给(内部)
FileOutputFormat
。我有点担心在用户定义的记录编写器中运行计数,因为我不确定如何在所有任务中从所有编写器收集数据

收集这些信息的最佳方式是什么