SPARK：使用带有SPARK群集的azure blob存储时，如何访问AzureFileSystemInstrumentation？_Azure_Apache Spark_Hadoop_Azure Storage Blobs_Metrics

SPARK：使用带有SPARK群集的azure blob存储时，如何访问AzureFileSystemInstrumentation？

azure apache-spark hadoop

SPARK：使用带有SPARK群集的azure blob存储时，如何访问AzureFileSystemInstrumentation？,azure,apache-spark,hadoop,azure-storage-blobs,metrics,Azure,Apache Spark,Hadoop,Azure Storage Blobs,Metrics,我正在从事一个spark项目，其中存储接收器是Azure Blob存储。我用拼花格式写数据。我需要一些关于存储的指标，例如numberoffiles created，writenbytes等。在线搜索时，我遇到了一个特定的指标，hadoop azure包称之为AzureFileSystemInstrumentation。我不知道如何从spark访问相同的内容，也找不到相同内容的任何资源。对于给定的spark作业，如何访问此仪器？根据我的经验，我认为有三种解决方案可用于当前场景，如下所示直接使用

我正在从事一个spark项目，其中存储接收器是Azure Blob存储。我用拼花格式写数据。我需要一些关于存储的指标，例如

numberoffiles created

，

writenbytes

等。在线搜索时，我遇到了一个特定的指标，

hadoop azure

包称之为

AzureFileSystemInstrumentation

。我不知道如何从spark访问相同的内容，也找不到相同内容的任何资源。对于给定的spark作业，如何访问此仪器？

根据我的经验，我认为有三种解决方案可用于当前场景，如下所示

直接使用for HDFS在Spark中获取HDFS度量数据，因为

hadoop azure

仅实现用于使用azure Blob存储的HDFS API，因此请参阅hadoop官方文档以了解您要使用的特定度量，例如

CreateFileOps

或

filecreated

如下图所示，以获得

numberoffilecreated

。同时，还有一个类似的SO线程可供参考

直接使用Azure Storage SDK for Java或其他语言您曾经编写过一个程序来统计存储在Azure Blob存储中的文件（按创建时间戳排序的Blob或其他），请参阅官方文档以了解如何使用其SDK

使用Azure函数和Blob触发器来监视在Azure Blob存储中创建的文件的事件，然后您可以编写代码来统计每个Blob创建的事件，请参阅官方文档以了解如何使用Blob触发器。甚至，您可以将这些度量发送到Azure表存储或Azure SQL数据库或其他服务，以便稍后在Azure Blob触发器函数中进行统计