SPARK:使用带有SPARK群集的azure blob存储时,如何访问AzureFileSystemInstrumentation?
我正在从事一个spark项目,其中存储接收器是Azure Blob存储。我用拼花格式写数据。我需要一些关于存储的指标,例如SPARK:使用带有SPARK群集的azure blob存储时,如何访问AzureFileSystemInstrumentation?,azure,apache-spark,hadoop,azure-storage-blobs,metrics,Azure,Apache Spark,Hadoop,Azure Storage Blobs,Metrics,我正在从事一个spark项目,其中存储接收器是Azure Blob存储。我用拼花格式写数据。我需要一些关于存储的指标,例如numberoffiles created,writenbytes等。在线搜索时,我遇到了一个特定的指标,hadoop azure包称之为AzureFileSystemInstrumentation。我不知道如何从spark访问相同的内容,也找不到相同内容的任何资源。对于给定的spark作业,如何访问此仪器?根据我的经验,我认为有三种解决方案可用于当前场景,如下所示 直接使用
numberoffiles created
,writenbytes
等。在线搜索时,我遇到了一个特定的指标,hadoop azure
包称之为AzureFileSystemInstrumentation
。我不知道如何从spark访问相同的内容,也找不到相同内容的任何资源。对于给定的spark作业,如何访问此仪器?根据我的经验,我认为有三种解决方案可用于当前场景,如下所示
hadoop azure
仅实现用于使用azure Blob存储的HDFS API,因此请参阅hadoop官方文档以了解您要使用的特定度量,例如CreateFileOps
或filecreated
如下图所示,以获得numberoffilecreated
。同时,还有一个类似的SO线程可供参考