Apache spark 在spark提交使用的资源后,是否有方法收集统计数据?

Apache spark 在spark提交使用的资源后,是否有方法收集统计数据?,apache-spark,yarn,Apache Spark,Yarn,我和spark and Thread一起工作,担任我的资源经理。我正在试图找到一种方法来收集运行后分配给作业的资源。资源管理器只报告当前使用情况,因此在完成后,它将归零 如果事后我无法获得这些数据,是否有办法让Spark作业在输出/存储数据时累积统计数据?尝试使用: 事后观察 只要应用程序的事件日志存在,仍然可以通过Spark的历史服务器构建应用程序的UI。您可以通过执行以下操作来启动历史记录服务器: ./sbin/start-history-server.sh 默认情况下,这将在http:/

我和spark and Thread一起工作,担任我的资源经理。我正在试图找到一种方法来收集运行后分配给作业的资源。资源管理器只报告当前使用情况,因此在完成后,它将归零

如果事后我无法获得这些数据,是否有办法让Spark作业在输出/存储数据时累积统计数据?

尝试使用:

事后观察

只要应用程序的事件日志存在,仍然可以通过Spark的历史服务器构建应用程序的UI。您可以通过执行以下操作来启动历史记录服务器:

./sbin/start-history-server.sh
默认情况下,这将在http://:18080处创建一个web界面,列出未完成和已完成的应用程序和尝试

使用文件系统提供程序类时,请参见下面的spark.history.provider,必须在spark.history.fs.logDirectory配置选项中提供基本日志目录,并且应该包含每个表示应用程序事件日志的子目录

spark作业本身必须配置为记录事件,并将其记录到同一个共享的可写目录中。例如,如果服务器配置的日志目录为hdfs://namenode/shared/spark-logs,则客户端选项将是:

spark.eventLog.enabled true
spark.eventLog.dir hdfs://namenode/shared/spark-logs