Java 如何在spark中获取FileOutputFormat统计信息,如记录计数、写入的字节数等?
在Hadoop中,当我使用Java 如何在spark中获取FileOutputFormat统计信息,如记录计数、写入的字节数等?,java,hadoop,apache-spark,Java,Hadoop,Apache Spark,在Hadoop中,当我使用FileOutputFormat时,我会在最后得到一个报告,描述日志中记录的数量、写入的字节数等(我认为它是作业跟踪器日志) 现在在Spark中,我通过saveAsNewAPIHadoopDataset方法使用相同的FileOutputFormat: myPairRdd.saveAsNewAPIHadoopDataset(config); 但是,我不知道如何从FileOutputFormat收集统计信息 在Spark应用程序中,我使用累加器作为计数器来获取一些统计
FileOutputFormat
时,我会在最后得到一个报告,描述日志中记录的数量、写入的字节数等(我认为它是作业跟踪器日志)
现在在Spark中,我通过saveAsNewAPIHadoopDataset
方法使用相同的FileOutputFormat
:
myPairRdd.saveAsNewAPIHadoopDataset(config);
但是,我不知道如何从FileOutputFormat
收集统计信息
在Spark应用程序中,我使用累加器作为计数器来获取一些统计数据,但我希望以FileOutputFormat收集统计数据并在最后报告
我甚至愿意编写自己的FileOutputFormat
&RecordWriter
delegator,它将统计记录并将记录的实际写入委托给(内部)FileOutputFormat
。我有点担心在用户定义的记录编写器中运行计数,因为我不确定如何在所有任务中从所有编写器收集数据
收集这些信息的最佳方式是什么