Apache spark 在spark提交使用的资源后，是否有方法收集统计数据？_Apache Spark_Yarn

Apache spark 在spark提交使用的资源后，是否有方法收集统计数据？

apache-spark

Apache spark 在spark提交使用的资源后，是否有方法收集统计数据？,apache-spark,yarn,Apache Spark,Yarn,我和spark and Thread一起工作，担任我的资源经理。我正在试图找到一种方法来收集运行后分配给作业的资源。资源管理器只报告当前使用情况，因此在完成后，它将归零如果事后我无法获得这些数据，是否有办法让Spark作业在输出/存储数据时累积统计数据？尝试使用：事后观察只要应用程序的事件日志存在，仍然可以通过Spark的历史服务器构建应用程序的UI。您可以通过执行以下操作来启动历史记录服务器： ./sbin/start-history-server.sh 默认情况下，这将在http:/

我和spark and Thread一起工作，担任我的资源经理。我正在试图找到一种方法来收集运行后分配给作业的资源。资源管理器只报告当前使用情况，因此在完成后，它将归零

如果事后我无法获得这些数据，是否有办法让Spark作业在输出/存储数据时累积统计数据？

尝试使用：

事后观察

只要应用程序的事件日志存在，仍然可以通过Spark的历史服务器构建应用程序的UI。您可以通过执行以下操作来启动历史记录服务器：

./sbin/start-history-server.sh

默认情况下，这将在http://:18080处创建一个web界面，列出未完成和已完成的应用程序和尝试

使用文件系统提供程序类时，请参见下面的spark.history.provider，必须在spark.history.fs.logDirectory配置选项中提供基本日志目录，并且应该包含每个表示应用程序事件日志的子目录

spark作业本身必须配置为记录事件，并将其记录到同一个共享的可写目录中。例如，如果服务器配置的日志目录为hdfs://namenode/shared/spark-logs，则客户端选项将是：

spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs