Java 如何在spark中获取FileOutputFormat统计信息，如记录计数、写入的字节数等？_Java_Hadoop_Apache Spark

Java 如何在spark中获取FileOutputFormat统计信息，如记录计数、写入的字节数等？

java hadoop apache-spark

Java 如何在spark中获取FileOutputFormat统计信息，如记录计数、写入的字节数等？,java,hadoop,apache-spark,Java,Hadoop,Apache Spark,在Hadoop中，当我使用FileOutputFormat时，我会在最后得到一个报告，描述日志中记录的数量、写入的字节数等（我认为它是作业跟踪器日志）现在在Spark中，我通过saveAsNewAPIHadoopDataset方法使用相同的FileOutputFormat： myPairRdd.saveAsNewAPIHadoopDataset(config); 但是，我不知道如何从FileOutputFormat收集统计信息在Spark应用程序中，我使用累加器作为计数器来获取一些统计

在Hadoop中，当我使用

FileOutputFormat

时，我会在最后得到一个报告，描述日志中记录的数量、写入的字节数等（我认为它是作业跟踪器日志）

现在在Spark中，我通过

saveAsNewAPIHadoopDataset

方法使用相同的

FileOutputFormat

：

myPairRdd.saveAsNewAPIHadoopDataset(config);

但是，我不知道如何从

FileOutputFormat

收集统计信息

在Spark应用程序中，我使用累加器作为计数器来获取一些统计数据，但我希望以FileOutputFormat收集统计数据并在最后报告

我甚至愿意编写自己的

FileOutputFormat

RecordWriter

delegator，它将统计记录并将记录的实际写入委托给（内部）

FileOutputFormat

。我有点担心在用户定义的记录编写器中运行计数，因为我不确定如何在所有任务中从所有编写器收集数据

收集这些信息的最佳方式是什么